bert為什么要加上lstm LSTM CRF模型中的CRF是完整的CRF還是動態(tài)規(guī)劃算法?
LSTM CRF模型中的CRF是完整的CRF還是動態(tài)規(guī)劃算法?你好,謝謝你的邀請。首先,CRF與LSTM無關(guān)。其次,CRF和HMM最大的區(qū)別是CRF是全局標準化的,這減輕了標簽偏差。那么LSTM的本征
LSTM CRF模型中的CRF是完整的CRF還是動態(tài)規(guī)劃算法?
你好,謝謝你的邀請。
首先,CRF與LSTM無關(guān)。
其次,CRF和HMM最大的區(qū)別是CRF是全局標準化的,這減輕了標簽偏差。
那么LSTM的本征函數(shù)就是提取的向量,或者LSTM本身就是一個本征函數(shù)。
那么,LSTM CRF中的轉(zhuǎn)移概率非常棘手。實際上,它是由tune導出的轉(zhuǎn)移矩陣。目的是增加馬爾可夫性和使用CRF。實踐表明,在LSTM上使用CRF是沒有用的。現(xiàn)在我們不用它了,因為LSTM本身已經(jīng)足夠精確了。
最后,我認為動態(tài)規(guī)劃只是CRF的計算方法,而不是模型本身。
請問神經(jīng)網(wǎng)絡(luò)有多個輸出的回歸問題,損失函數(shù)如何定義比較合理?
簡述損失函數(shù)和風險函數(shù)的定義?(高等統(tǒng)計學)?
最重要的是線性代數(shù)和概率論。
現(xiàn)在最流行的機器學習模型,神經(jīng)網(wǎng)絡(luò)基本上有很多向量、矩陣、張量。從激活函數(shù)到損失函數(shù),從反向傳播到梯度下降,都是對這些向量、矩陣和張量的運算和操作。
其他“傳統(tǒng)”機器學習算法也使用大量線性代數(shù)。例如,線性回歸與線性代數(shù)密切相關(guān)。
從線性代數(shù)的觀點來看,主成分分析是對協(xié)方差矩陣進行對角化。
尤其是當你讀論文或想更深入的時候,概率論的知識是非常有用的。
它包括邊緣概率、鏈式規(guī)則、期望、貝葉斯推理、最大似然、最大后驗概率、自信息、香農(nóng)熵、KL散度等。
神經(jīng)網(wǎng)絡(luò)非常講究“可微性”,因為可微模型可以用梯度下降法優(yōu)化。梯度下降和導數(shù)是分不開的。所以多元微積分也需要。另外,由于機器學習是以統(tǒng)計方法為基礎(chǔ)的,因此統(tǒng)計知識是必不可少的。但是,大多數(shù)理工科專業(yè)學生都應該學過這兩部分內(nèi)容,所以這可能不屬于需要補充的內(nèi)容。