lstm的作用 從RNN到LSTM,性能良好的神經(jīng)網(wǎng)絡(luò)到底是如何工作的?
從RNN到LSTM,性能良好的神經(jīng)網(wǎng)絡(luò)到底是如何工作的?RNN(遞歸神經(jīng)網(wǎng)絡(luò)),顧名思義,以先前的輸出(隱藏狀態(tài))作為輸入,形成一個(gè)循環(huán)。(RNN擴(kuò)展,圖像源:colah.github.io文件)上面
從RNN到LSTM,性能良好的神經(jīng)網(wǎng)絡(luò)到底是如何工作的?
RNN(遞歸神經(jīng)網(wǎng)絡(luò)),顧名思義,以先前的輸出(隱藏狀態(tài))作為輸入,形成一個(gè)循環(huán)。
(RNN擴(kuò)展,圖像源:colah.github.io文件)
上面的展開(kāi)圖清楚地顯示了RNN的結(jié)構(gòu)。不難發(fā)現(xiàn)RNN的結(jié)構(gòu)與序列化數(shù)據(jù)是一致的。實(shí)際上,RNN實(shí)際上主要用于處理序列化數(shù)據(jù)。
基本上,不使用原始RNN,而是使用RNN的變體。
漸變裁剪可以緩解漸變爆炸,而RNN變體(如主流LSTM和Gru)可以緩解漸變消失。
(一般是sigmoid層)建模輸入、輸出和遺忘。
(圖片來(lái)源:中新網(wǎng)/@左上角的藍(lán)色是輸入門(mén),右上角的綠色是輸出門(mén),底部的紅色是遺忘門(mén)。
在訓(xùn)練LSTM的時(shí)候使用除了Tanh/Sigmoid以外的激活函數(shù)效果都很差,是為什么?
LSTM中使用的所有Sigmoid都是門(mén),其輸出必須在0.1之間,所以relu不能確定
elliotsig也很難飽和。LSTM應(yīng)該需要飽和門(mén)來(lái)記住或忘記信息。不飽和門(mén)會(huì)使過(guò)去和現(xiàn)在的記憶一直重疊,從而導(dǎo)致記憶障礙