語音數(shù)據(jù)包 微信對語音輸入的升級是否在收集大量訓(xùn)練數(shù)據(jù)?
微信對語音輸入的升級是否在收集大量訓(xùn)練數(shù)據(jù)?這是毫無疑問的。事實(shí)上,語音識別的算法近年來并沒有得到很大的更新,最重要的是依靠大量的數(shù)據(jù),通過大量的數(shù)據(jù)來訓(xùn)練模型的準(zhǔn)確性,這就是所謂的數(shù)據(jù)驅(qū)動(dòng)方法。語音
微信對語音輸入的升級是否在收集大量訓(xùn)練數(shù)據(jù)?
這是毫無疑問的。事實(shí)上,語音識別的算法近年來并沒有得到很大的更新,最重要的是依靠大量的數(shù)據(jù),通過大量的數(shù)據(jù)來訓(xùn)練模型的準(zhǔn)確性,這就是所謂的數(shù)據(jù)驅(qū)動(dòng)方法。
語音識別在其早期發(fā)展中有兩個(gè)方向。一個(gè)方向是根據(jù)語法和語義進(jìn)行識別,但這種方法長期以來沒有取得突破。第二個(gè)方向是讓計(jì)算機(jī)學(xué)習(xí)大量的數(shù)據(jù),然后通過大量的數(shù)據(jù)來訓(xùn)練模型的準(zhǔn)確性。這一方向在互聯(lián)網(wǎng)時(shí)代,已經(jīng)取得了長足的進(jìn)步,并逐漸取得了主導(dǎo)地位。毫不夸張地說,當(dāng)算法之間的差異不大時(shí),數(shù)據(jù)量越大,精度就越好。微信此舉顯然正是出于這一考慮。
用同一數(shù)據(jù)集訓(xùn)練神經(jīng)網(wǎng)絡(luò),每次訓(xùn)練結(jié)果不一樣,有時(shí)正確率很高,有時(shí)很低,為什么?
其實(shí)這個(gè)問題的實(shí)質(zhì)是,如果我們用機(jī)器學(xué)習(xí)算法對數(shù)據(jù)集上的數(shù)據(jù)模型進(jìn)行一次訓(xùn)練,保存模型,然后用同樣的算法和同樣的數(shù)據(jù)集以及數(shù)據(jù)排序?qū)ζ溥M(jìn)行再次訓(xùn)練,那么第一個(gè)模型和第二個(gè)模型是一樣的嗎?
這可能是因?yàn)樯窠?jīng)網(wǎng)絡(luò)用增益或權(quán)重的隨機(jī)值初始化,然后每個(gè)模擬在訓(xùn)練階段有不同的起點(diǎn)。如果您希望始終保持相同的初始權(quán)重,可以嘗試為初始權(quán)重修復(fù)種子以消除問題。
如果我們深入研究這個(gè)問題,我們可以根據(jù)ml算法的“確定性”來對其進(jìn)行分類。當(dāng)從同一個(gè)數(shù)據(jù)集進(jìn)行訓(xùn)練時(shí):
一個(gè)是總是生成相同的模型,并且記錄以相同的順序呈現(xiàn);
另一個(gè)是總是生成不同的模型,并且記錄順序不同。
在實(shí)踐中,大多數(shù)是“不確定的”。模型變化的原因可能是機(jī)器學(xué)習(xí)算法本身存在隨機(jī)游走、不同權(quán)值的隨機(jī)初始化、不同分量的概率分布抽樣來分配優(yōu)化函數(shù)。
雖然模型的“不確定性”可能會(huì)對單個(gè)訓(xùn)練結(jié)果造成干擾,但我們也可以用“不確定性”來確認(rèn)模型的穩(wěn)定性,如決策樹、支持向量機(jī)(SVM)、神經(jīng)網(wǎng)絡(luò)等,最終可以通過多次迭代來確認(rèn)模型的穩(wěn)定性。
是否存在通用的神經(jīng)網(wǎng)絡(luò)模型,可以處理圖像,語音以及NLP?
對于目前的深度學(xué)習(xí)模型,雖然深度學(xué)習(xí)的目標(biāo)之一是設(shè)計(jì)能夠處理各種任務(wù)的算法,但是深度學(xué)習(xí)的應(yīng)用還需要一定的專業(yè)化,目前還沒有通用的神經(jīng)網(wǎng)絡(luò)處理模型。然而,每一種模式也在相互學(xué)習(xí)、相互融合、共同提高。例如,一些創(chuàng)新可以同時(shí)改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)和遞歸神經(jīng)網(wǎng)絡(luò),如批量標(biāo)準(zhǔn)化和關(guān)注度。一般模型需要在將來提出。
圖像和視頻處理,計(jì)算機(jī)視覺,最流行的是CNN,卷積神經(jīng)網(wǎng)絡(luò),它的變形和發(fā)展,CNN適合處理空間數(shù)據(jù),廣泛應(yīng)用于計(jì)算機(jī)視覺領(lǐng)域。例如,alexnet、vggnet、googlenet、RESNET等都有自己的特點(diǎn)。將上述模型應(yīng)用于圖像分類識別中。在圖像分割、目標(biāo)檢測等方面,提出了更有針對性的模型,并得到了廣泛的應(yīng)用。
語音處理,2012年之前,最先進(jìn)的語音識別系統(tǒng)是隱馬爾可夫模型(HMM)和高斯混合模型(GMM)的結(jié)合。目前最流行的是深度學(xué)習(xí)RNN遞歸神經(jīng)網(wǎng)絡(luò),其長、短期記憶網(wǎng)絡(luò)LSTM、Gru、雙向RNN、層次RNN等。
除了傳統(tǒng)的自然語言處理方法外,目前的自然語言處理深度學(xué)習(xí)模型也經(jīng)歷了幾個(gè)發(fā)展階段,如基于CNN的模型、基于RNN的模型、基于注意的模型、基于變壓器的模型等。不同的任務(wù)場景有不同的模型和策略來解決一些問題。