深度神經(jīng)網(wǎng)絡(luò) 用同一數(shù)據(jù)集訓(xùn)練神經(jīng)網(wǎng)絡(luò)，每次訓(xùn)練結(jié)果不一樣，有時(shí)正確率很高，有時(shí)很低，為什么？

2021-03-11

1904

用同一數(shù)據(jù)集訓(xùn)練神經(jīng)網(wǎng)絡(luò)，每次訓(xùn)練結(jié)果不一樣，有時(shí)正確率很高，有時(shí)很低，為什么？其實(shí)這個(gè)問(wèn)題的實(shí)質(zhì)是，如果我們用機(jī)器學(xué)習(xí)算法在數(shù)據(jù)集上訓(xùn)練一次數(shù)據(jù)模型，保存模型，然后用同樣的算法和同樣的數(shù)據(jù)集和數(shù)據(jù)排

用同一數(shù)據(jù)集訓(xùn)練神經(jīng)網(wǎng)絡(luò)，每次訓(xùn)練結(jié)果不一樣，有時(shí)正確率很高，有時(shí)很低，為什么？

其實(shí)這個(gè)問(wèn)題的實(shí)質(zhì)是，如果我們用機(jī)器學(xué)習(xí)算法在數(shù)據(jù)集上訓(xùn)練一次數(shù)據(jù)模型，保存模型，然后用同樣的算法和同樣的數(shù)據(jù)集和數(shù)據(jù)排序再訓(xùn)練一遍，第一個(gè)模型和第二個(gè)模型是一樣的嗎？

這可能是因?yàn)樯窠?jīng)網(wǎng)絡(luò)用增益或權(quán)重的隨機(jī)值初始化，然后每個(gè)模擬在訓(xùn)練階段有不同的起點(diǎn)。如果您希望始終保持相同的初始權(quán)重，可以嘗試為初始權(quán)重修復(fù)種子以消除問(wèn)題。

如果我們深入研究這個(gè)問(wèn)題，我們可以根據(jù)ml算法的“確定性”來(lái)對(duì)其進(jìn)行分類。當(dāng)從同一個(gè)數(shù)據(jù)集進(jìn)行訓(xùn)練時(shí)：

一個(gè)是總是生成相同的模型，并且記錄以相同的順序呈現(xiàn)；

另一個(gè)是總是生成不同的模型，并且記錄順序不同。

在實(shí)踐中，大多數(shù)是“不確定的”。模型變化的原因可能是機(jī)器學(xué)習(xí)算法本身存在隨機(jī)游走、不同權(quán)值的隨機(jī)初始化、不同分量的概率分布抽樣來(lái)分配優(yōu)化函數(shù)。

雖然模型的“不確定性”可能會(huì)對(duì)單個(gè)訓(xùn)練結(jié)果造成干擾，但我們也可以用“不確定性”來(lái)確認(rèn)模型的穩(wěn)定性，如決策樹(shù)、支持向量機(jī)（SVM）、神經(jīng)網(wǎng)絡(luò)等，最終可以通過(guò)多次迭代來(lái)確認(rèn)模型的穩(wěn)定性。

如何判斷神經(jīng)網(wǎng)絡(luò)是否過(guò)度訓(xùn)練？

在機(jī)器學(xué)習(xí)中，如果訓(xùn)練樣本太少，訓(xùn)練步驟太多，訓(xùn)練模型容易出現(xiàn)過(guò)度訓(xùn)練，會(huì)記錄更多訓(xùn)練樣本的特征，忽略樣本間的共性挖掘。過(guò)度訓(xùn)練的特點(diǎn)是當(dāng)模型對(duì)訓(xùn)練樣本進(jìn)行線性回歸或分類時(shí)，損失很小，精度很高，甚至很快達(dá)到100%。但當(dāng)模型對(duì)測(cè)試樣本進(jìn)行驗(yàn)證時(shí)，損失很大，精度嚴(yán)重降低。

為了解決過(guò)度訓(xùn)練的問(wèn)題，首先將神經(jīng)網(wǎng)絡(luò)隱層中的部分神經(jīng)元按一定比例丟棄，以降低神經(jīng)元之間的連接強(qiáng)度；其次，對(duì)神經(jīng)網(wǎng)絡(luò)各層的訓(xùn)練參數(shù)進(jìn)行標(biāo)準(zhǔn)化，以防止變化過(guò)快，從而降低網(wǎng)絡(luò)性能減少訓(xùn)練次數(shù)；第三，實(shí)時(shí)檢測(cè)訓(xùn)練損失；第四，適當(dāng)增加訓(xùn)練樣本數(shù)，減少訓(xùn)練步數(shù)，也可以減少訓(xùn)練過(guò)度的問(wèn)題。

深度學(xué)習(xí)和普通的機(jī)器學(xué)習(xí)有什么區(qū)別？

一張圖片顯示了這種關(guān)系。機(jī)器學(xué)習(xí)是人工智能的重要領(lǐng)域之一，而深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)分支。深度學(xué)習(xí)之所以近年來(lái)流行起來(lái)，是因?yàn)樗黄屏藗鹘y(tǒng)機(jī)器學(xué)習(xí)無(wú)法解決的一些問(wèn)題。

機(jī)器學(xué)習(xí)的意義在于代替人工完成重復(fù)性工作，識(shí)別出統(tǒng)一的規(guī)則（模式）。但是對(duì)于傳統(tǒng)的機(jī)器學(xué)習(xí)來(lái)說(shuō)，特征提取的難度不?。ㄌ卣骺梢允窍袼亍⑽恢?、方向等）。特征的準(zhǔn)確性將在很大程度上決定大多數(shù)機(jī)器學(xué)習(xí)算法的性能。為了使特征準(zhǔn)確，在特征工程部分需要大量的人力來(lái)調(diào)整和改進(jìn)特征。完成這一系列工作的前提是，數(shù)據(jù)集中所包含的信息量是充分的，并且易于識(shí)別。如果不滿足這一前提，傳統(tǒng)的機(jī)器學(xué)習(xí)算法將在信息的雜亂中失去其性能。深度學(xué)習(xí)的應(yīng)用正是基于這個(gè)問(wèn)題。它的深層神經(jīng)網(wǎng)絡(luò)使它能夠在雜波中學(xué)習(xí)，自動(dòng)發(fā)現(xiàn)與任務(wù)相關(guān)的特征（可以看作是自發(fā)學(xué)習(xí)的特征工程），并提取高級(jí)特征，從而大大減少了特征工程部分任務(wù)所花費(fèi)的時(shí)間。

另一個(gè)明顯的區(qū)別是他們對(duì)數(shù)據(jù)集大小的偏好。傳統(tǒng)的機(jī)器學(xué)習(xí)在處理規(guī)則完備的小規(guī)模數(shù)據(jù)時(shí)表現(xiàn)出良好的性能，而深度學(xué)習(xí)則表現(xiàn)不好。隨著數(shù)據(jù)集規(guī)模的不斷擴(kuò)大，深度學(xué)習(xí)的效果會(huì)逐漸顯現(xiàn)出來(lái)，并變得越來(lái)越好。對(duì)比如下圖所示。

如何估算神經(jīng)網(wǎng)絡(luò)的最優(yōu)學(xué)習(xí)率？

。

具體來(lái)說(shuō)，當(dāng)前主流的神經(jīng)網(wǎng)絡(luò)模型使用梯度下降算法進(jìn)行訓(xùn)練，或?qū)W習(xí)參數(shù)。學(xué)習(xí)速率決定權(quán)重在梯度方向上成批移動(dòng)的距離。理論上，學(xué)習(xí)率越高，神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)速度越快。但是，如果學(xué)習(xí)速率過(guò)高，可能會(huì)“穿越”損失函數(shù)的最小值，導(dǎo)致收斂失敗。

上圖左邊是高學(xué)習(xí)率，右邊是低學(xué)習(xí)率，來(lái)源：mikkel Duif（quora）

那么，如何找到最佳學(xué)習(xí)率？

方法。但是，這種方法的初始學(xué)習(xí)率（上例中為0.1）不應(yīng)該太高。如果初始學(xué)習(xí)率太高，可能會(huì)“穿越”最優(yōu)值。

另外，還有另外一種思路，就是逆向操作，從學(xué)習(xí)率很低開(kāi)始，每批之后再提高學(xué)習(xí)率。例如，從0.00001到0.0001，再到0.001，再到0.01，再到0.1。這個(gè)想法背后的直覺(jué)是，如果我們總是以很低的學(xué)習(xí)率學(xué)習(xí)，我們總是可以學(xué)習(xí)到最好的權(quán)重（除非整個(gè)網(wǎng)絡(luò)架構(gòu)有問(wèn)題），但它將非常緩慢。因此，從一個(gè)很低的學(xué)習(xí)率開(kāi)始，我們可以肯定地觀察到損失函數(shù)的下降。然后逐漸加大學(xué)習(xí)率，直到學(xué)習(xí)率過(guò)高，導(dǎo)致發(fā)散。該方法還避免了上述方法初始學(xué)習(xí)率過(guò)高，一次“穿越”最優(yōu)值的隱患。這是Leslie n.Smith在2015年的論文《訓(xùn)練神經(jīng)網(wǎng)絡(luò)的循環(huán)學(xué)習(xí)率》中提出的方法。

国产成人毛片视频|星空传媒久草视频|欧美激情草久视频|久久久久女女|久操超碰在线播放|亚洲强奸一区二区|五月天丁香社区在线|色婷婷成人丁香网|午夜欧美6666|纯肉无码91视频

用同一數(shù)據(jù)集訓(xùn)練神經(jīng)網(wǎng)絡(luò)，每次訓(xùn)練結(jié)果不一樣，有時(shí)正確率很高，有時(shí)很低，為什么？

如何判斷神經(jīng)網(wǎng)絡(luò)是否過(guò)度訓(xùn)練？

深度學(xué)習(xí)和普通的機(jī)器學(xué)習(xí)有什么區(qū)別？

如何估算神經(jīng)網(wǎng)絡(luò)的最優(yōu)學(xué)習(xí)率？

相關(guān)推薦

用同一數(shù)據(jù)集訓(xùn)練神經(jīng)網(wǎng)絡(luò)，每次訓(xùn)練結(jié)果不一樣，有時(shí)正確率很高，有時(shí)很低，為什么？

如何判斷神經(jīng)網(wǎng)絡(luò)是否過(guò)度訓(xùn)練？

深度學(xué)習(xí)和普通的機(jī)器學(xué)習(xí)有什么區(qū)別？