欠擬合與過擬合的概念 機(jī)器學(xué)習(xí)需要哪些數(shù)學(xué)基礎(chǔ)?
機(jī)器學(xué)習(xí)需要哪些數(shù)學(xué)基礎(chǔ)?主要是線性代數(shù)和概率論?,F(xiàn)在最流行的機(jī)器學(xué)習(xí)模型,神經(jīng)網(wǎng)絡(luò)基本上有很多向量、矩陣、張量。從激活函數(shù)到損失函數(shù),從反向傳播到梯度下降,都是對這些向量、矩陣和張量的運算和操作。其
機(jī)器學(xué)習(xí)需要哪些數(shù)學(xué)基礎(chǔ)?
主要是線性代數(shù)和概率論。
現(xiàn)在最流行的機(jī)器學(xué)習(xí)模型,神經(jīng)網(wǎng)絡(luò)基本上有很多向量、矩陣、張量。從激活函數(shù)到損失函數(shù),從反向傳播到梯度下降,都是對這些向量、矩陣和張量的運算和操作。
其他“傳統(tǒng)”機(jī)器學(xué)習(xí)算法也使用大量線性代數(shù)。例如,線性回歸與線性代數(shù)密切相關(guān)。
從線性代數(shù)的觀點來看,主成分分析是對協(xié)方差矩陣進(jìn)行對角化。
尤其是當(dāng)你讀論文或想更深入的時候,概率論的知識是非常有用的。
它包括邊緣概率、鏈?zhǔn)揭?guī)則、期望、貝葉斯推理、最大似然、最大后驗概率、自信息、香農(nóng)熵、KL散度等。
神經(jīng)網(wǎng)絡(luò)非常講究“可微性”,因為可微模型可以用梯度下降法優(yōu)化。梯度下降和導(dǎo)數(shù)是分不開的。所以多元微積分也需要。另外,由于機(jī)器學(xué)習(xí)是以統(tǒng)計方法為基礎(chǔ)的,因此統(tǒng)計知識是必不可少的。但是,大多數(shù)理工科專業(yè)學(xué)生都應(yīng)該學(xué)過這兩部分內(nèi)容,所以這可能不屬于需要補(bǔ)充的內(nèi)容。
可以通過直接減少hidden layer、hidden unit而不是加正則化來解決神經(jīng)網(wǎng)絡(luò)過擬合嗎?
簡單的答案是肯定的。復(fù)雜的答案是不確定的(見下文)。
這個概念。
(圖片作者:chabacano,許可證:CC by sa 4.0)
從圖像中可以明顯看出,過度擬合的曲線過于曲折(復(fù)雜),對現(xiàn)有數(shù)據(jù)擬合得非常好,但它不能很好地描述數(shù)據(jù)的規(guī)律,因此面對新數(shù)據(jù),我們不得不停下來。
從上面我們得到一個直覺,過度擬合的模型往往比正確的模型更復(fù)雜。
。您所說的“直接減少隱藏層和隱藏單元的數(shù)量”使網(wǎng)絡(luò)更薄、更窄正是簡化模型的方法。這個想法沒有問題。
但是,我們可能必須嘗試找出它是否有效。因為,一般來說,更復(fù)雜的網(wǎng)絡(luò)可能更有表現(xiàn)力。
一般來說,神經(jīng)網(wǎng)絡(luò)仍然是一個黑匣子。有時,正則化的效果更好,有時則不然。一些問題可能是復(fù)雜的網(wǎng)絡(luò)工作得很好,另一些問題可能是深度和狹窄的網(wǎng)絡(luò)工作得很好,另一些問題可能是薄而寬的網(wǎng)絡(luò)工作得很好,或者一些問題可能是簡單的網(wǎng)絡(luò)工作得很好。
具體來說,為了解決過擬合問題,除了簡化模型(即您稱之為“直接減少隱藏層、隱藏層、隱藏層”)外,還存在漏項(在某種意義上,我們可以看到模型的某些部分由于簡化模型的繞道而無法工作),以及人為增加稀疏性限制(稀疏性和簡化之間存在模糊關(guān)系)或盡快停止訓(xùn)練。