模型準確率多少合適怎樣估計訓練好一個機器學習模型所需要的最少訓練數(shù)據(jù)量？

2021-03-15

1565

怎樣估計訓練好一個機器學習模型所需要的最少訓練數(shù)據(jù)量？目前，還沒有定量的計算方法來評估訓練機器學習模型所需的數(shù)據(jù)量。它往往需要根據(jù)問題的實際情況、模型結(jié)構(gòu)等進行評價。需要反復實驗才能最終確定所需的數(shù)據(jù)

怎樣估計訓練好一個機器學習模型所需要的最少訓練數(shù)據(jù)量？

目前，還沒有定量的計算方法來評估訓練機器學習模型所需的數(shù)據(jù)量。它往往需要根據(jù)問題的實際情況、模型結(jié)構(gòu)等進行評價。需要反復實驗才能最終確定所需的數(shù)據(jù)量。當然，這里數(shù)據(jù)量的前提是每個數(shù)據(jù)之間的重復或相似性相對較低。否則，100個重復數(shù)據(jù)將比10個非重復數(shù)據(jù)更無用，即必須是有效數(shù)據(jù)。在這種情況下，一般來說，對數(shù)據(jù)量的需求是韓信的命令，越多越好。數(shù)據(jù)大小對模型的影響主要是泛化。數(shù)據(jù)量越大，泛化效果越好。

一個是數(shù)據(jù)的復雜性或特征的數(shù)量，另一個是模型參數(shù)的數(shù)量和模型的結(jié)構(gòu)。

數(shù)據(jù)的特征編號是指描述數(shù)據(jù)所需的特征尺寸。例如，100×100彩色圖片的特征尺寸是100×100×3＝30000個特征編號。如果使用bag-of-words模型來表示文本的特征，那么特征數(shù)就是字典中所有單詞的數(shù)量。根據(jù)經(jīng)驗，對于具有大量特征的數(shù)據(jù)，往往需要大量的數(shù)據(jù)來訓練模型，這也意味著模型的參數(shù)也很多。對于特征維數(shù)較小的數(shù)據(jù)，通常采用簡單的logistic回歸模型。但是，對于維數(shù)較多但數(shù)據(jù)較少的特征，可以選擇使用基于樹的集合模型，如AdaBoost、隨機森林等。對于具有超多維特征的數(shù)據(jù)，最直接的處理方法是使用深度神經(jīng)網(wǎng)絡，如圖像、文本等。

設計的模型參數(shù)越多，需要的數(shù)據(jù)就越多。大量實驗表明，它們之間存在著線性關(guān)系。此外，優(yōu)良的模型結(jié)構(gòu)可以大大減少參數(shù)的個數(shù)，取得較好的預測效果。例如，在提取圖像特征時，全連接不如卷積層好，卷積層參數(shù)較少。

因此，在確定所需數(shù)據(jù)量時，需要反復實驗，不斷調(diào)整模型參數(shù)，判斷模型是否存在過擬合等。根據(jù)具體情況進行具體分析。

用“機器學習”做“股票預測”能做到什么程度，靠譜嗎？

這是我試圖回答的問題。根據(jù)前面的答案，我可以更系統(tǒng)地整理出來。一般經(jīng)濟學家和金融學者傾向于用他們的知識來解釋股票，如傳統(tǒng)經(jīng)濟學中的有效市場假說（EMH）。市場是有效率的，我們不可能預測股票價格的走勢。但數(shù)學家和計算機科學家認為，雖然不確定性很大，但并不意味著我們找不到線索。如果我們真的無能為力的話。為什么華爾街或倫敦金融城有那么多人能賺大錢？為什么德蕭、量子基金等金融巨頭會招募數(shù)學家和計算機科學家來做定量分析。所以這在一定程度上是可以做到的。

1. 當人們不注意機器學習的時候，許多科學家（特別是數(shù)學家和計算機科學家）離開他們的領(lǐng)域去建立對沖基金，比如文藝復興時期的詹姆斯西蒙斯（jamessimons）（James-Simons）就在那時成立了對沖基金https://en.wikipedia.org/wiki/James哈里斯（西蒙斯），大衛(wèi)。蕭伯納（https://en.wikipedia.org/wiki/David前哥倫比亞大學計算化學教授E.?Shaw在他的對沖基金里賺了足夠的錢，作為首席科學家繼續(xù)他的研究。

2. 機器學習的出現(xiàn)降低了這件事的門檻，但僅僅用別人現(xiàn)成的算法是絕對不可能在市場上打敗別人的。特別是對于時間序列，我們認為RNN（遞歸神經(jīng)網(wǎng)絡）是一個很好的選擇，其實現(xiàn)也是正確的。也有一些工作使用RNN（Elman或LSTM）進行金融時間序列分析。我們認為僅僅使用股票價格信息是不夠的。畢竟，股票市場是一個非常復雜的系統(tǒng)。我們從兩個方面研究了這個問題。一是尋找宏觀股價與微觀交易者之間的相關(guān)模型。我們假設交易者是一個博弈模型，宏觀數(shù)據(jù)是微觀行為的體現(xiàn)。我們也做了一些這樣的工作和實驗。得到了一些初步結(jié)果。您可以參考我們的工作：http://www.sciencedirect.com/science/article/pii/s092523121602356

http://dsd.future-lab.cn/research/publications/2011/ICCCI-springer.pdf

用同一數(shù)據(jù)集訓練神經(jīng)網(wǎng)絡，每次訓練結(jié)果不一樣，有時正確率很高，有時很低，為什么？

其實這個問題的實質(zhì)是，如果我們用機器學習算法對數(shù)據(jù)集上的數(shù)據(jù)模型進行一次訓練，保存模型，然后根據(jù)數(shù)據(jù)集和數(shù)據(jù)排序，使用相同的算法和相同的編號，再進行訓練。第一種型號和第二種型號一樣嗎？

這可能是因為神經(jīng)網(wǎng)絡用增益或權(quán)重的隨機值初始化，然后每個模擬在訓練階段有不同的起點。如果您希望始終保持相同的初始權(quán)重，可以嘗試為初始權(quán)重修復種子以消除問題。

如果我們深入研究這個問題，我們可以根據(jù)ml算法的“確定性”來對其進行分類。當從同一個數(shù)據(jù)集進行訓練時：

一個是總是生成相同的模型，并且記錄以相同的順序呈現(xiàn)；

另一個是總是生成不同的模型，并且記錄順序不同。

在實踐中，大多數(shù)是“不確定的”。模型變化的原因可能是機器學習算法本身存在隨機游走、不同權(quán)值的隨機初始化、不同分量的概率分布抽樣來分配優(yōu)化函數(shù)。

雖然模型的“不確定性”可能會對單個訓練結(jié)果造成干擾，但我們也可以用“不確定性”來確認模型的穩(wěn)定性，如決策樹、支持向量機（SVM）、神經(jīng)網(wǎng)絡等，最終可以通過多次迭代來確認模型的穩(wěn)定性。

Solidworks有限元分析結(jié)果是否可信？

為什么不相信它？

在上述過程中，材料只需測定彈性模量、泊松比、屈服強度等相關(guān)力學性能曲線（線性或非線性）。離散化理論也是以有限元法為基礎(chǔ)的，彈性力學等準則都是四種強度理論

從上面我們可以看出，它們背后的理論支撐是一樣的。選擇不同的軟件無非是選擇不同的計算工具。你會把你手機上的計算器計算出來的結(jié)果和其他專用計算器計算出來的結(jié)果進行比較嗎？

国产成人毛片视频|星空传媒久草视频|欧美激情草久视频|久久久久女女|久操超碰在线播放|亚洲强奸一区二区|五月天丁香社区在线|色婷婷成人丁香网|午夜欧美6666|纯肉无码91视频

怎樣估計訓練好一個機器學習模型所需要的最少訓練數(shù)據(jù)量？

用“機器學習”做“股票預測”能做到什么程度，靠譜嗎？

用同一數(shù)據(jù)集訓練神經(jīng)網(wǎng)絡，每次訓練結(jié)果不一樣，有時正確率很高，有時很低，為什么？

Solidworks有限元分析結(jié)果是否可信？

相關(guān)推薦

怎樣估計訓練好一個機器學習模型所需要的最少訓練數(shù)據(jù)量？

用“機器學習”做“股票預測”能做到什么程度，靠譜嗎？

用同一數(shù)據(jù)集訓練神經(jīng)網(wǎng)絡，每次訓練結(jié)果不一樣，有時正確率很高，有時很低，為什么？

Solidworks有限元分析結(jié)果是否可信？