国产成人毛片视频|星空传媒久草视频|欧美激情草久视频|久久久久女女|久操超碰在线播放|亚洲强奸一区二区|五月天丁香社区在线|色婷婷成人丁香网|午夜欧美6666|纯肉无码91视频

什么是梯度消失和梯度爆炸 深度學(xué)習(xí)中的梯度消失和梯度爆炸是什么?有哪些方法可以解決?

深度學(xué)習(xí)中的梯度消失和梯度爆炸是什么?有哪些方法可以解決?梯度消失的根源-深層神經(jīng)網(wǎng)絡(luò)和反向傳播。目前,神經(jīng)網(wǎng)絡(luò)的優(yōu)化方法都是基于bp算法的思想,即根據(jù)損失函數(shù)計算的誤差,采用梯度bp算法來指導(dǎo)深度網(wǎng)

深度學(xué)習(xí)中的梯度消失和梯度爆炸是什么?有哪些方法可以解決?

梯度消失的根源-深層神經(jīng)網(wǎng)絡(luò)和反向傳播。目前,神經(jīng)網(wǎng)絡(luò)的優(yōu)化方法都是基于bp算法的思想,即根據(jù)損失函數(shù)計算的誤差,采用梯度bp算法來指導(dǎo)深度網(wǎng)絡(luò)權(quán)值的更新和優(yōu)化。

梯度消失和梯度爆炸。在兩種情況下,梯度消失經(jīng)常發(fā)生,一種是在深網(wǎng)絡(luò)中,另一種是使用不適當(dāng)?shù)膿p失函數(shù),如sigmoid。梯度爆炸通常發(fā)生在深度網(wǎng)絡(luò)初始值和權(quán)重過大時。神經(jīng)網(wǎng)絡(luò)的反向傳播是將函數(shù)的偏導(dǎo)數(shù)逐層相乘。因此,當(dāng)神經(jīng)網(wǎng)絡(luò)的層很深時,最后一層的偏差會因為乘以許多小于1的偏導(dǎo)數(shù)而變得越來越小,最后趨于0,導(dǎo)致淺層的權(quán)值不更新,即梯度消失。由于梯度爆炸的初始權(quán)值過大,前一層的變化比后一層快,導(dǎo)致權(quán)值增加和溢出,導(dǎo)致Nan值的產(chǎn)生。

使用sigmoid激活函數(shù)時,梯度消失問題更常見,而梯度爆炸問題只發(fā)生在非常窄的范圍內(nèi)。

解決梯度消失問題的方法:添加BN層、使用不同的激活函數(shù)(relu)、使用剩余結(jié)構(gòu)、使用LSTM網(wǎng)絡(luò)結(jié)構(gòu)等

解決梯度爆炸問題的方法:添加BN層、使用不同的激活函數(shù)、梯度剪切(限制梯度范圍),權(quán)重正則化,使用LSTM網(wǎng)絡(luò),重新設(shè)計網(wǎng)絡(luò)模型(減少層,學(xué)習(xí))率,批量大?。?/p>

歡迎討論

人腦是怎么防止梯度消失和梯度爆炸的?

大腦中有近900億個神經(jīng)元。如此龐大的網(wǎng)絡(luò)如何防止梯度消失和梯度爆炸?我認為,因為大腦不能一次激活所有的神經(jīng)元,所以它把結(jié)果儲存在遠離大腦的地方。

人腦是如何工作的?

你給大腦一個圖像,同時激活整個大腦嗎?顯然不是。大腦被分割了。然而,在遙遠的地方存儲信息只是人腦算法的一小部分,這與動物和人類驚人的識別能力無關(guān)。我認為更多的是關(guān)于短期記憶的儲存(在它變成長期記憶之前)。

現(xiàn)在人們普遍認為人腦沒有DNN這樣的梯度返回機制。。。對生物學(xué)稍有了解就會發(fā)現(xiàn)神經(jīng)元的傳遞是單向的。但是我們能有兩個神經(jīng)元,一個前饋一個反饋嗎?目前的研究還沒有發(fā)現(xiàn)。。。一般認為這一環(huán)節(jié)是一個循環(huán)結(jié)構(gòu)(RNN)。其次,新生動物的比率可能不需要學(xué)習(xí)掌握很多基本的信息處理能力。例如,牛、羊和馬生來就是要走路的。結(jié)果表明,它們的基因是預(yù)先編程的,具有一些基本的能力,如行走、運動和視覺,這是我們通過反向傳播訓(xùn)練模型實現(xiàn)的。人類出生的原因看不清楚。現(xiàn)有的解釋是,人類在出生時并沒有完全發(fā)育,否則嬰兒的頭太大,無法順利分娩。然而,大腦中肯定有一種機制來返回錯誤并改變突觸重量。

從RNN到LSTM,性能良好的神經(jīng)網(wǎng)絡(luò)到底是如何工作的?

RNN(遞歸神經(jīng)網(wǎng)絡(luò))顧名思義,就是把以前的輸出(隱藏狀態(tài))作為輸入,形成一個循環(huán)。

(RNN擴展,圖像源:colah.github.io文件)

上面的展開圖清楚地顯示了RNN的結(jié)構(gòu)。不難發(fā)現(xiàn)RNN的結(jié)構(gòu)與序列化數(shù)據(jù)是一致的。實際上,RNN實際上主要用于處理序列化數(shù)據(jù)。

基本上,不使用原始RNN,而是使用RNN的變體。

漸變裁剪可以緩解漸變爆炸,而RNN變體(如主流LSTM和Gru)可以緩解漸變消失。

(一般是sigmoid層)建模輸入、輸出和遺忘。

(圖片來源:中新網(wǎng)/@左上角的藍色是輸入門,右上角的綠色是輸出門,底部的紅色是遺忘門。