国产成人毛片视频|星空传媒久草视频|欧美激情草久视频|久久久久女女|久操超碰在线播放|亚洲强奸一区二区|五月天丁香社区在线|色婷婷成人丁香网|午夜欧美6666|纯肉无码91视频

自然語(yǔ)言處理入門項(xiàng)目 碩士期間攻讀深度學(xué)習(xí)還是自然語(yǔ)言處理好?

碩士期間攻讀深度學(xué)習(xí)還是自然語(yǔ)言處理好?感覺(jué)作者應(yīng)該問(wèn)的問(wèn)題是應(yīng)該攻讀圖像處理好還是自然語(yǔ)言處理好(目前深度學(xué)習(xí)的兩大分支)。當(dāng)然深度學(xué)習(xí)也不完全包含這兩個(gè),比如自然語(yǔ)言處理(NLP)在之前都是用統(tǒng)計(jì)

碩士期間攻讀深度學(xué)習(xí)還是自然語(yǔ)言處理好?

感覺(jué)作者應(yīng)該問(wèn)的問(wèn)題是應(yīng)該攻讀圖像處理好還是自然語(yǔ)言處理好(目前深度學(xué)習(xí)的兩大分支)。當(dāng)然深度學(xué)習(xí)也不完全包含這兩個(gè),比如自然語(yǔ)言處理(NLP)在之前都是用統(tǒng)計(jì)學(xué)方法處理的,這兩年才流行起來(lái)用了深度學(xué)習(xí)。我的研究方向和NLP相關(guān),就重點(diǎn)說(shuō)說(shuō)NLP吧。

首先目前深度學(xué)習(xí)領(lǐng)域有兩個(gè)最主流的模型CNN和RNN。CNN就是卷積神經(jīng)網(wǎng)絡(luò),通常用在圖像處理上,RNN是循環(huán)神經(jīng)網(wǎng)絡(luò),自然語(yǔ)言領(lǐng)域用的比較多。作者說(shuō)攻讀深度學(xué)習(xí),通常也需要找個(gè)小的點(diǎn)來(lái)攻讀。比方NLP,也是個(gè)非常大的概念,在NLP這個(gè)大概念下,又有很小的一些方向,比方說(shuō)問(wèn)答系統(tǒng)(類似于聊天機(jī)器人),文檔主題抽取,語(yǔ)音識(shí)別,機(jī)器翻譯等等。還可以應(yīng)用到其他領(lǐng)域,比如我的方向是利用NLP做安全領(lǐng)域的一些事情,如bug定位,summarize code,漏洞檢測(cè)等(代碼本身也是一種語(yǔ)言)。

接下來(lái)說(shuō)說(shuō)入門的難度吧,無(wú)論自然語(yǔ)言處理也好,圖像處理也好,本質(zhì)上都是把圖片或者語(yǔ)句轉(zhuǎn)換成向量,然后對(duì)向量做一些處理。既然是轉(zhuǎn)換成向量,就得提到特征提取。個(gè)人覺(jué)得自然語(yǔ)言處理的提取難度是大于圖片的,畢竟語(yǔ)言這種東西還是比較抽象的東西。提取的方法比如說(shuō)按照詞頻,高端點(diǎn)的有基于語(yǔ)義的word2vec,但是這種特征再怎么表示,也沒(méi)有圖片的像素點(diǎn),或者圖片二值化以后的特征來(lái)的直觀明了。

但是NLP無(wú)疑是很容易入門的,為什么這么說(shuō)呢,因?yàn)閚lp現(xiàn)在有太多太多容易又好用的工具了。比方說(shuō)word2vec,可以用的工具太多太多,我最常用的就是gensim,基本上所有自然語(yǔ)言處理的算法都有api。如果想要解析語(yǔ)法樹(shù),可以用stanford corenlp。其他的很多就是簡(jiǎn)單的字符串處理。入門可以說(shuō)很容易,你理解完概念之后就可以上手了。記得我剛?cè)肟拥臅r(shí)候,第一個(gè)任務(wù)是實(shí)現(xiàn)14年一篇軟工領(lǐng)域頂會(huì)的論文,完全是當(dāng)做字符串處理,看懂論文就直接上手寫代碼了,都沒(méi)用api(當(dāng)然因?yàn)榇a基礎(chǔ)還可以,哈哈,吹個(gè)牛)。

但是想深入的話,無(wú)論是圖像處理還是NLP都是非常難的,但是我覺(jué)得,NLP更難。圖像處理其實(shí)是個(gè)比較直觀的東西,比如人臉識(shí)別,各種識(shí)別,很少涉及邏輯理解,但是NLP不一樣,很多領(lǐng)域的任務(wù)都是基于理解,而且結(jié)果也很難評(píng)判,比方機(jī)器翻譯,你生成一句句子,雖說(shuō)有BLEU這種指標(biāo),但是具體好壞,我覺(jué)得還是需要人閱讀后來(lái)衡量的。

比方說(shuō)上圖,是最近研究的一個(gè)通過(guò)自然語(yǔ)言自動(dòng)生成代碼的一個(gè)基于Python ast的RNN(ACL 2017的論文的圖),就是根據(jù)一句描述,生成代碼,沒(méi)錯(cuò),我研究的就是那些傳說(shuō)中能取代程序猿的東西(瞎扯淡),生成的東西,根本沒(méi)有一個(gè)評(píng)判標(biāo)準(zhǔn),不像圖像,有一個(gè)確定的標(biāo)簽,這是個(gè)非常主觀的東西。

另外通過(guò)這張圖再說(shuō)一點(diǎn),上面這張圖看起來(lái)很,什么attention Bi-directional LSTM RNN(注意力機(jī)制雙向長(zhǎng)短時(shí)記憶循環(huán)神經(jīng)網(wǎng)絡(luò)),什么基于Python AST(抽象語(yǔ)法樹(shù))的生成和應(yīng)用規(guī)則,本質(zhì)上都是一個(gè)RNN,做了一些不同的變種而已

第一次打那么多文字。。。希望能有幫助

有哪些常用的自然語(yǔ)言處理庫(kù)?

主要有以下六種可以參考:

1、NLTK(自然語(yǔ)言工具包)用于分詞、詞形還原、詞干提取、解析、句法分析、詞性標(biāo)注等任務(wù)。該庫(kù)具備可用于幾乎所有 NLP 任務(wù)的工具。

2、spaCy 是 NLTK 的主要競(jìng)爭(zhēng)者。這兩個(gè)庫(kù)可用于同樣的任務(wù)。

3、scikit-learn 提供一個(gè)用于機(jī)器學(xué)習(xí)的大型庫(kù),包含用于文本預(yù)處理的工具。

4、gensim 是用于話題空間建模、向量空間建模和文檔相似度的工具包。

5、Pattern 庫(kù)是作為 web 挖掘模塊提供服務(wù)的,因此,它也支持 NLP 任務(wù)。

6、polyglot 是另一個(gè)用于 NLP 的 Python 包。它不是很流行,但也可以用于大量 NLP 任務(wù)。