java和python 一個(gè)100g的大文件,如何高效統(tǒng)計(jì)詞頻?并取出出現(xiàn)頻率最高的前三個(gè)?
一個(gè)100g的大文件,如何高效統(tǒng)計(jì)詞頻?并取出出現(xiàn)頻率最高的前三個(gè)?首先,將文章分成單詞,轉(zhuǎn)移到數(shù)據(jù)庫(kù),然后按單詞分組,或者使用elasticsearch更快順便說(shuō)一句,讓我們看看安利用Python編
一個(gè)100g的大文件,如何高效統(tǒng)計(jì)詞頻?并取出出現(xiàn)頻率最高的前三個(gè)?
首先,將文章分成單詞,轉(zhuǎn)移到數(shù)據(jù)庫(kù),然后按單詞分組,或者使用elasticsearch更快
順便說(shuō)一句,讓我們看看安利用Python編寫的詞頻統(tǒng)計(jì)腳本:英文文本Python詞頻統(tǒng)計(jì)-魏華文章-智湖專欄