CRF是什么縮寫(xiě) 搜索引擎常用的中文分詞的方法有哪些?
搜索引擎常用的中文分詞的方法有哪些?中文分詞算法大概分為兩大類(lèi)a.第一類(lèi)是基于字符串匹配,即掃描字符串,如果發(fā)現(xiàn)字符串的子串和詞相同,就算匹配。這類(lèi)分詞通常會(huì)加入一些啟發(fā)式規(guī)則,比如“正向/反向最大匹
搜索引擎常用的中文分詞的方法有哪些?
中文分詞算法大概分為兩大類(lèi)a.第一類(lèi)是基于字符串匹配,即掃描字符串,如果發(fā)現(xiàn)字符串的子串和詞相同,就算匹配。這類(lèi)分詞通常會(huì)加入一些啟發(fā)式規(guī)則,比如“正向/反向最大匹配”, “長(zhǎng)詞優(yōu)先” 等策略。這類(lèi)算法優(yōu)點(diǎn)是速度塊,都是O(n)時(shí)間復(fù)雜度,實(shí)現(xiàn)簡(jiǎn)單,效果尚可。也有缺點(diǎn),就是對(duì)歧義和未登錄詞處理不好。b.第二類(lèi)是基于統(tǒng)計(jì)以及機(jī)器學(xué)習(xí)的分詞方式這類(lèi)分詞基于人工標(biāo)注的詞性和統(tǒng)計(jì)特征,對(duì)中文進(jìn)行建模,即根據(jù)觀測(cè)到的數(shù)據(jù)(標(biāo)注好的語(yǔ)料)對(duì)模型參數(shù)進(jìn)行估計(jì),即訓(xùn)練。 在分詞階段再通過(guò)模型計(jì)算各種分詞出現(xiàn)的概率,將概率最大的分詞結(jié)果作為最終結(jié)果。常見(jiàn)的序列標(biāo)注模型有HMM和CRF。這類(lèi)分詞算法能很好處理歧義和未登錄詞問(wèn)題,效果比前一類(lèi)效果好,但是需要大量的人工標(biāo)注數(shù)據(jù),以及較慢的分詞速度。
機(jī)器學(xué)習(xí)需要哪些數(shù)學(xué)基礎(chǔ)?
最主要的是線性代數(shù)和概率論。
線性代數(shù)
現(xiàn)在最流行的機(jī)器學(xué)習(xí)模型,神經(jīng)網(wǎng)絡(luò)基本是就是一大堆向量、矩陣、張量。從激活函數(shù)到損失函數(shù),從反向傳播到梯度下降,都是對(duì)這些向量、矩陣、張量的操作和運(yùn)算。
其他“傳統(tǒng)”機(jī)器學(xué)習(xí)算法也大量使用線性代數(shù)。比如線性回歸
聽(tīng)名字就知道和線性代數(shù)關(guān)系密切了。
而主成分分析,從線性代數(shù)的觀點(diǎn)看,就是對(duì)角化協(xié)方差矩陣。
概率
特別是當(dāng)你讀論文或者想深入一點(diǎn)的時(shí)候,概率論的知識(shí)非常有幫助。
包括邊緣概率、鏈?zhǔn)椒▌t、期望、貝葉斯推理、最大似然、最大后驗(yàn)、自信息、香農(nóng)熵、KL散度,等等。
其他
神經(jīng)網(wǎng)絡(luò)很講究“可微”,因?yàn)榭晌⒌哪P涂梢酝ㄟ^(guò)梯度下降的方法優(yōu)化。梯度下降離不開(kāi)求導(dǎo)。所以多變量微積分也需要。另外,因?yàn)闄C(jī)器學(xué)習(xí)是基于統(tǒng)計(jì)的方法,所以統(tǒng)計(jì)學(xué)的知識(shí)也缺不了。不過(guò)大部分理工科應(yīng)該都學(xué)過(guò)這兩塊內(nèi)容,所以這也許不屬于需要補(bǔ)充的內(nèi)容。
在nlp中常用的算法都有哪些?
詞向量方面有有word2vec,tf-idf,glove等
序列標(biāo)注方面有hmm,crf等常用的算法,也可和神經(jīng)網(wǎng)絡(luò)結(jié)合使用,可用于解決分詞,詞性識(shí)別,命名實(shí)體識(shí)別,關(guān)鍵詞識(shí)別等問(wèn)題!
關(guān)鍵詞提取方面可以用textrank,lda等
分類(lèi)方面(包括意圖識(shí)別和情感識(shí)別等)傳統(tǒng)的機(jī)器學(xué)習(xí)算法和神經(jīng)網(wǎng)絡(luò)都是可以的。
其他方面,如相似度比較的余弦相似度,編輯距離以及其他優(yōu)化方面的動(dòng)態(tài)規(guī)劃,維特比等很多。