基于bert的文本相似度如何用python計(jì)算文本的相似度？

2021-03-15

1135

如何用python計(jì)算文本的相似度？第1步：將每個(gè)網(wǎng)頁文本分成單詞，形成一袋單詞。第三步：統(tǒng)計(jì)網(wǎng)頁（文檔）總數(shù)M。第三步：統(tǒng)計(jì)第一個(gè)網(wǎng)頁n中的字?jǐn)?shù)，計(jì)算第一個(gè)網(wǎng)頁的第一個(gè)字在網(wǎng)頁n中出現(xiàn)的次數(shù)，然后計(jì)

如何用python計(jì)算文本的相似度？

第1步：將每個(gè)網(wǎng)頁文本分成單詞，形成一袋單詞。第三步：統(tǒng)計(jì)網(wǎng)頁（文檔）總數(shù)M。第三步：統(tǒng)計(jì)第一個(gè)網(wǎng)頁n中的字?jǐn)?shù)，計(jì)算第一個(gè)網(wǎng)頁的第一個(gè)字在網(wǎng)頁n中出現(xiàn)的次數(shù)，然后計(jì)算出該字在所有文檔M中出現(xiàn)的次數(shù)，則該字的TF IDF為：n/n*1/（M/M）（還有其他規(guī)范化公式，這里是最基本、最直觀的公式）。第四步：重復(fù)第三步計(jì)算網(wǎng)頁中所有單詞的TF-IDF。第五步：重復(fù)第四步計(jì)算所有網(wǎng)頁中每個(gè)單詞的TF-IDF值。三。用戶查詢處理的第一步：用戶查詢的分詞。第二步是根據(jù)web數(shù)據(jù)庫（文檔）的數(shù)據(jù)計(jì)算用戶查詢中每個(gè)詞的TF-IDF值。4余弦相似度用于計(jì)算用戶查詢與每個(gè)網(wǎng)頁之間的夾角。角度越小，越相似。

国产成人毛片视频|星空传媒久草视频|欧美激情草久视频|久久久久女女|久操超碰在线播放|亚洲强奸一区二区|五月天丁香社区在线|色婷婷成人丁香网|午夜欧美6666|纯肉无码91视频

如何用python計(jì)算文本的相似度？

怎么在大數(shù)據(jù)文件記錄中對(duì)比單個(gè)文本相似度？

相關(guān)推薦

如何用python計(jì)算文本的相似度？

怎么在大數(shù)據(jù)文件記錄中對(duì)比單個(gè)文本相似度？