雙向lstm和單向lstm 從RNN到LSTM,性能良好的神經(jīng)網(wǎng)絡(luò)到底是如何工作的?
從RNN到LSTM,性能良好的神經(jīng)網(wǎng)絡(luò)到底是如何工作的?RNN(遞歸神經(jīng)網(wǎng)絡(luò)),顧名思義,以先前的輸出(隱藏狀態(tài))作為輸入,形成一個(gè)循環(huán)。(RNN擴(kuò)展,圖像源:colah.github.io文件)上面
從RNN到LSTM,性能良好的神經(jīng)網(wǎng)絡(luò)到底是如何工作的?
RNN(遞歸神經(jīng)網(wǎng)絡(luò)),顧名思義,以先前的輸出(隱藏狀態(tài))作為輸入,形成一個(gè)循環(huán)。
(RNN擴(kuò)展,圖像源:colah.github.io文件)
上面的展開(kāi)圖清楚地顯示了RNN的結(jié)構(gòu)。不難發(fā)現(xiàn)RNN的結(jié)構(gòu)與序列化數(shù)據(jù)是一致的。實(shí)際上,RNN實(shí)際上主要用于處理序列化數(shù)據(jù)。
基本上,不使用原始RNN,而是使用RNN的變體。
漸變裁剪可以緩解漸變爆炸,而RNN變體(如主流LSTM和Gru)可以緩解漸變消失。
(一般是sigmoid層)建模輸入、輸出和遺忘。
(圖片來(lái)源:中新網(wǎng)/@左上角的藍(lán)色是輸入門(mén),右上角的綠色是輸出門(mén),底部的紅色是遺忘門(mén)。
是否存在通用的神經(jīng)網(wǎng)絡(luò)模型,可以處理圖像,語(yǔ)音以及NLP?
對(duì)于目前的深度學(xué)習(xí)模型,雖然深度學(xué)習(xí)的目標(biāo)之一是設(shè)計(jì)能夠處理各種任務(wù)的算法,但是深度學(xué)習(xí)的應(yīng)用還需要一定的專業(yè)化,目前還沒(méi)有通用的神經(jīng)網(wǎng)絡(luò)處理模型。然而,每一種模式也在相互學(xué)習(xí)、相互融合、共同提高。例如,一些創(chuàng)新可以同時(shí)改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)和遞歸神經(jīng)網(wǎng)絡(luò),如批量標(biāo)準(zhǔn)化和關(guān)注度。一般模型需要在將來(lái)提出。
圖像和視頻處理,計(jì)算機(jī)視覺(jué),最流行的是CNN,卷積神經(jīng)網(wǎng)絡(luò),它的變形和發(fā)展,CNN適合處理空間數(shù)據(jù),廣泛應(yīng)用于計(jì)算機(jī)視覺(jué)領(lǐng)域。例如,alexnet、vggnet、googlenet、RESNET等都有自己的特點(diǎn)。將上述模型應(yīng)用于圖像分類識(shí)別中。在圖像分割、目標(biāo)檢測(cè)等方面,提出了更有針對(duì)性的模型,并得到了廣泛的應(yīng)用。
語(yǔ)音處理,2012年之前,最先進(jìn)的語(yǔ)音識(shí)別系統(tǒng)是隱馬爾可夫模型(HMM)和高斯混合模型(GMM)的結(jié)合。目前最流行的是深度學(xué)習(xí)RNN遞歸神經(jīng)網(wǎng)絡(luò),其長(zhǎng)、短期記憶網(wǎng)絡(luò)LSTM、Gru、雙向RNN、層次RNN等。
除了傳統(tǒng)的自然語(yǔ)言處理方法外,目前的自然語(yǔ)言處理深度學(xué)習(xí)模型也經(jīng)歷了幾個(gè)發(fā)展階段,如基于CNN的模型、基于RNN的模型、基于注意的模型、基于變壓器的模型等。不同的任務(wù)場(chǎng)景有不同的模型和策略來(lái)解決一些問(wèn)題。
LSTM可以用于圖像分割嗎?
也可以,因?yàn)長(zhǎng)STM是RNN。歸根結(jié)底,RNN是一種自回歸計(jì)算。如果您認(rèn)為有必要使用自回歸進(jìn)行圖像分割,為什么不嘗試LSTM呢?例如,這并不是說(shuō)沒(méi)有人用RNN做過(guò)圖像識(shí)別
這不僅僅是因?yàn)槿斯ぶ悄墁F(xiàn)在如此火爆,歷史上也曾一度火爆。
人們總是高估短時(shí)間內(nèi)能取得的成就,卻低估了長(zhǎng)時(shí)間內(nèi)能取得的成就。這是人類社會(huì)的本性,而且一直如此。1956年達(dá)特茅斯會(huì)議提出了人工智能的概念。當(dāng)時(shí),科學(xué)家們信心滿滿,希望讓人工智能在十年內(nèi)解決人類智能能夠解決的問(wèn)題。當(dāng)時(shí)的一位大牛認(rèn)為,讓機(jī)器看到和理解事物是一項(xiàng)非常簡(jiǎn)單的任務(wù),讓他的博士生在一個(gè)月內(nèi)解決機(jī)器視覺(jué)的問(wèn)題。當(dāng)然,我們知道,這個(gè)問(wèn)題到現(xiàn)在還沒(méi)有解決。
人工智能是一個(gè)極其重要的領(lǐng)域。正因?yàn)槿绱?,人們?duì)它的看法總是徘徊在幾個(gè)極端之間。上世紀(jì)60年代,人們對(duì)解決自然語(yǔ)言問(wèn)題充滿了熱情,希望用幾年時(shí)間創(chuàng)造出一個(gè)通用的翻譯器,讓人們相互理解,讓巴別塔不再是廢墟。但在投入了大量人力物力后,研究人員卻一敗涂地。于是,人工智能的熱潮迅速退去。在接下來(lái)的十年里,整個(gè)領(lǐng)域變得悲觀起來(lái),持續(xù)了十多年的“人工智能之冬”開(kāi)始了。
然而,許多研究人員仍在研究它——畢竟,人工智能太有吸引力了。20世紀(jì)90年代以來(lái),一些新的思想被應(yīng)用,人工智能領(lǐng)域逐漸活躍起來(lái)。但最大的變化應(yīng)該是2006年提出的“深度學(xué)習(xí)”方法。該方法以神經(jīng)網(wǎng)絡(luò)為基礎(chǔ),模擬人腦的學(xué)習(xí)方法,構(gòu)造多層機(jī)器學(xué)習(xí)模型。
最重要的是,這種方法具有很強(qiáng)的通用性,使機(jī)器能夠“學(xué)習(xí)”如何理解現(xiàn)實(shí)世界中的對(duì)象。因此,人們?cè)趫D像識(shí)別、機(jī)器翻譯、作文、寫(xiě)作等領(lǐng)域進(jìn)行了深入的學(xué)習(xí)嘗試,其中自然語(yǔ)言處理有著良好的發(fā)展勢(shì)頭。
如果在人工智能的發(fā)展中有任何突破性的技術(shù),深度學(xué)習(xí)應(yīng)該是其中之一。然而,這一領(lǐng)域的普及不僅僅是由深度學(xué)習(xí)推動(dòng)的,計(jì)算機(jī)工具的普及、計(jì)算能力的提高和互聯(lián)網(wǎng)的發(fā)展都是促成當(dāng)今人工智能發(fā)展的重要因素。