国产成人毛片视频|星空传媒久草视频|欧美激情草久视频|久久久久女女|久操超碰在线播放|亚洲强奸一区二区|五月天丁香社区在线|色婷婷成人丁香网|午夜欧美6666|纯肉无码91视频

word2vec計(jì)算文本相似度 卷積神經(jīng)網(wǎng)絡(luò),文本分類時,預(yù)訓(xùn)練word2vec的詞向量?

卷積神經(jīng)網(wǎng)絡(luò),文本分類時,預(yù)訓(xùn)練word2vec的詞向量?影響因素很多。例如,我需要花60個小時來訓(xùn)練544m商品標(biāo)題語料庫。但是,打開fast uux版本后僅需20分鐘(需要安裝Python)卷積神

卷積神經(jīng)網(wǎng)絡(luò),文本分類時,預(yù)訓(xùn)練word2vec的詞向量?

影響因素很多。例如,我需要花60個小時來訓(xùn)練544m商品標(biāo)題語料庫。

但是,打開fast uux版本后僅需20分鐘(需要安裝Python)卷積神經(jīng)網(wǎng)絡(luò)文本分類,預(yù)先訓(xùn)練的word2vec的詞向量

word2vec本質(zhì)上是一個矩陣分解模型。簡言之,矩陣描述了每個單詞和上下文中的一組單詞之間的相關(guān)性。對矩陣進(jìn)行分解,只取隱藏空間中每個單詞的向量。

所以word2vec適用于一個數(shù)據(jù)序列,該序列的本地?cái)?shù)據(jù)之間有很強(qiáng)的相關(guān)性。典型的是文本的順序,相鄰的詞是密切相關(guān)的,甚至一個詞的上下文都可以大致預(yù)測中間的詞是什么。所學(xué)習(xí)的詞向量表示詞的語義,可用于分類、聚類和相似度計(jì)算。另外,word2vec的分層分類器或抽樣方法實(shí)際上對流行項(xiàng)做了大量的懲罰,因此不會像一般的矩陣分解那樣,語義相似的最后一個詞就是流行詞,這是word2vec的一個很好的特點(diǎn)。

對于短文本分類,我們直接在文檔中加入所有的詞向量作為文本特征來訓(xùn)練分類器,效果也很好。該方法也應(yīng)用于word2vec的訓(xùn)練過程中。另外,如果改用RBF核支持向量機(jī)等非線性分類器,分類精度會更高,也符合預(yù)期。

其他序列的數(shù)據(jù)也可以這樣做。我記得去年關(guān)于KDD的文章deepwalk,使用社交網(wǎng)絡(luò)上的隨機(jī)游走來生成節(jié)點(diǎn)序列,然后使用word2vec來訓(xùn)練每個節(jié)點(diǎn)對應(yīng)的向量。但我用這種方法在QQ社交網(wǎng)絡(luò)上做了一些實(shí)驗(yàn),發(fā)現(xiàn)效果很不理想,這可能與QQ社交網(wǎng)絡(luò)的復(fù)雜性有關(guān)。

我非常滿意的一個應(yīng)用程序是將word2vec應(yīng)用到用戶的應(yīng)用程序下載序列。根據(jù)用戶的app下載序列,將app視為一個詞,也可以形成這樣的序列數(shù)據(jù),然后訓(xùn)練每個app對應(yīng)的向量。利用這個向量來計(jì)算應(yīng)用之間的相似度,效果非常好。它可以聚合真正與內(nèi)容相關(guān)的應(yīng)用程序,同事可以避免受流行應(yīng)用程序的影響。類似的場景應(yīng)該有很多,而且應(yīng)用也很廣泛,比如推薦系統(tǒng)和廣告系統(tǒng)。