編碼的三個(gè)主要特征 embedding技術(shù)介紹?
embedding技術(shù)介紹?嵌入技術(shù)是一種利用低維稠密向量來表示對象的方法,使向量能夠表達(dá)相應(yīng)對象的一些特征,向量之間的距離能夠反映對象之間的相似性。作為深度學(xué)習(xí)的一個(gè)熱門研究方向,它經(jīng)歷了從序列樣本
embedding技術(shù)介紹?
嵌入技術(shù)是一種利用低維稠密向量來表示對象的方法,使向量能夠表達(dá)相應(yīng)對象的一些特征,向量之間的距離能夠反映對象之間的相似性。
作為深度學(xué)習(xí)的一個(gè)熱門研究方向,它經(jīng)歷了從序列樣本、物理圖形樣本到異構(gòu)多特征樣本的發(fā)展過程。此外,由于嵌入式技術(shù)具有較強(qiáng)的信息綜合表示能力和較低的在線部署門檻,進(jìn)一步加快了其在工業(yè)中的應(yīng)用。
怎么形象理解embedding這個(gè)概念?
嵌入可以理解為降維,或者一種映射,在這種映射中,一些復(fù)雜且難以表達(dá)的特征可以相對地用數(shù)學(xué)方法或更多的計(jì)算方法來表達(dá)。例如,把單詞變成一個(gè)向量,把數(shù)字(奇偶正反實(shí)數(shù)復(fù)合性質(zhì))變成一個(gè)n維矩陣。
T3中客戶分類中的類別編碼怎么設(shè)置的?
對于離散的特性,如大尺寸的ID,一個(gè)熱編碼將導(dǎo)致尺寸過大和訓(xùn)練困難。處理這類特征的最佳方法是將其嵌入到一個(gè)固定維的實(shí)空間中。
例如,對于用戶ID,在一個(gè)大數(shù)據(jù)集中可能有數(shù)以億計(jì)的用戶ID。對于這些ID,我們可以將它們映射到64維空間。模型訓(xùn)練實(shí)際上是在64維空間中更新用戶ID和相應(yīng)的嵌入向量。這樣,每個(gè)用戶ID可以包含的信息被包括在64維實(shí)向量中。