模型準確率多少合適 怎樣估計訓練好一個機器學習模型所需要的最少訓練數(shù)據(jù)量?
怎樣估計訓練好一個機器學習模型所需要的最少訓練數(shù)據(jù)量?目前,還沒有定量的計算方法來評估訓練機器學習模型所需的數(shù)據(jù)量。它往往需要根據(jù)問題的實際情況、模型結(jié)構(gòu)等進行評價。需要反復實驗才能最終確定所需的數(shù)據(jù)
怎樣估計訓練好一個機器學習模型所需要的最少訓練數(shù)據(jù)量?
目前,還沒有定量的計算方法來評估訓練機器學習模型所需的數(shù)據(jù)量。它往往需要根據(jù)問題的實際情況、模型結(jié)構(gòu)等進行評價。需要反復實驗才能最終確定所需的數(shù)據(jù)量。當然,這里數(shù)據(jù)量的前提是每個數(shù)據(jù)之間的重復或相似性相對較低。否則,100個重復數(shù)據(jù)將比10個非重復數(shù)據(jù)更無用,即必須是有效數(shù)據(jù)。在這種情況下,一般來說,對數(shù)據(jù)量的需求是韓信的命令,越多越好。數(shù)據(jù)大小對模型的影響主要是泛化。數(shù)據(jù)量越大,泛化效果越好。
一個是數(shù)據(jù)的復雜性或特征的數(shù)量,另一個是模型參數(shù)的數(shù)量和模型的結(jié)構(gòu)。
數(shù)據(jù)的特征編號是指描述數(shù)據(jù)所需的特征尺寸。例如,100×100彩色圖片的特征尺寸是100×100×3=30000個特征編號。如果使用bag-of-words模型來表示文本的特征,那么特征數(shù)就是字典中所有單詞的數(shù)量。根據(jù)經(jīng)驗,對于具有大量特征的數(shù)據(jù),往往需要大量的數(shù)據(jù)來訓練模型,這也意味著模型的參數(shù)也很多。對于特征維數(shù)較小的數(shù)據(jù),通常采用簡單的logistic回歸模型。但是,對于維數(shù)較多但數(shù)據(jù)較少的特征,可以選擇使用基于樹的集合模型,如AdaBoost、隨機森林等。對于具有超多維特征的數(shù)據(jù),最直接的處理方法是使用深度神經(jīng)網(wǎng)絡,如圖像、文本等。
設計的模型參數(shù)越多,需要的數(shù)據(jù)就越多。大量實驗表明,它們之間存在著線性關(guān)系。此外,優(yōu)良的模型結(jié)構(gòu)可以大大減少參數(shù)的個數(shù),取得較好的預測效果。例如,在提取圖像特征時,全連接不如卷積層好,卷積層參數(shù)較少。
因此,在確定所需數(shù)據(jù)量時,需要反復實驗,不斷調(diào)整模型參數(shù),判斷模型是否存在過擬合等。根據(jù)具體情況進行具體分析。
用“機器學習”做“股票預測”能做到什么程度,靠譜嗎?
這是我試圖回答的問題。根據(jù)前面的答案,我可以更系統(tǒng)地整理出來。一般經(jīng)濟學家和金融學者傾向于用他們的知識來解釋股票,如傳統(tǒng)經(jīng)濟學中的有效市場假說(EMH)。市場是有效率的,我們不可能預測股票價格的走勢。但數(shù)學家和計算機科學家認為,雖然不確定性很大,但并不意味著我們找不到線索。如果我們真的無能為力的話。為什么華爾街或倫敦金融城有那么多人能賺大錢?為什么德蕭、量子基金等金融巨頭會招募數(shù)學家和計算機科學家來做定量分析。所以這在一定程度上是可以做到的。
1. 當人們不注意機器學習的時候,許多科學家(特別是數(shù)學家和計算機科學家)離開他們的領(lǐng)域去建立對沖基金,比如文藝復興時期的詹姆斯西蒙斯(jamessimons)(James-Simons)就在那時成立了對沖基金https://en.wikipedia.org/wiki/James哈里斯(西蒙斯),大衛(wèi)。蕭伯納(https://en.wikipedia.org/wiki/David前哥倫比亞大學計算化學教授E.?Shaw在他的對沖基金里賺了足夠的錢,作為首席科學家繼續(xù)他的研究。
2. 機器學習的出現(xiàn)降低了這件事的門檻,但僅僅用別人現(xiàn)成的算法是絕對不可能在市場上打敗別人的。特別是對于時間序列,我們認為RNN(遞歸神經(jīng)網(wǎng)絡)是一個很好的選擇,其實現(xiàn)也是正確的。也有一些工作使用RNN(Elman或LSTM)進行金融時間序列分析。我們認為僅僅使用股票價格信息是不夠的。畢竟,股票市場是一個非常復雜的系統(tǒng)。我們從兩個方面研究了這個問題。一是尋找宏觀股價與微觀交易者之間的相關(guān)模型。我們假設交易者是一個博弈模型,宏觀數(shù)據(jù)是微觀行為的體現(xiàn)。我們也做了一些這樣的工作和實驗。得到了一些初步結(jié)果。您可以參考我們的工作:http://www.sciencedirect.com/science/article/pii/s092523121602356
http://dsd.future-lab.cn/research/publications/2011/ICCCI-springer.pdf
用同一數(shù)據(jù)集訓練神經(jīng)網(wǎng)絡,每次訓練結(jié)果不一樣,有時正確率很高,有時很低,為什么?
其實這個問題的實質(zhì)是,如果我們用機器學習算法對數(shù)據(jù)集上的數(shù)據(jù)模型進行一次訓練,保存模型,然后根據(jù)數(shù)據(jù)集和數(shù)據(jù)排序,使用相同的算法和相同的編號,再進行訓練。第一種型號和第二種型號一樣嗎?
這可能是因為神經(jīng)網(wǎng)絡用增益或權(quán)重的隨機值初始化,然后每個模擬在訓練階段有不同的起點。如果您希望始終保持相同的初始權(quán)重,可以嘗試為初始權(quán)重修復種子以消除問題。
如果我們深入研究這個問題,我們可以根據(jù)ml算法的“確定性”來對其進行分類。當從同一個數(shù)據(jù)集進行訓練時:
一個是總是生成相同的模型,并且記錄以相同的順序呈現(xiàn);
另一個是總是生成不同的模型,并且記錄順序不同。
在實踐中,大多數(shù)是“不確定的”。模型變化的原因可能是機器學習算法本身存在隨機游走、不同權(quán)值的隨機初始化、不同分量的概率分布抽樣來分配優(yōu)化函數(shù)。
雖然模型的“不確定性”可能會對單個訓練結(jié)果造成干擾,但我們也可以用“不確定性”來確認模型的穩(wěn)定性,如決策樹、支持向量機(SVM)、神經(jīng)網(wǎng)絡等,最終可以通過多次迭代來確認模型的穩(wěn)定性。
Solidworks有限元分析結(jié)果是否可信?
為什么不相信它?
在上述過程中,材料只需測定彈性模量、泊松比、屈服強度等相關(guān)力學性能曲線(線性或非線性)。離散化理論也是以有限元法為基礎(chǔ)的,彈性力學等準則都是四種強度理論
從上面我們可以看出,它們背后的理論支撐是一樣的。選擇不同的軟件無非是選擇不同的計算工具。你會把你手機上的計算器計算出來的結(jié)果和其他專用計算器計算出來的結(jié)果進行比較嗎?