想寫代碼，特別是爬蟲代碼，怎么學習？

2018-10-11

1380

網(wǎng)友解答: 不清楚你為什么想學習爬蟲代碼，可能是好奇或者是出于學習的目的吧。爬蟲說的明白、清楚一點，就是解析網(wǎng)頁，獲取數(shù)據(jù)，后續(xù)就是數(shù)據(jù)處理的過程。目前來說，網(wǎng)上也有現(xiàn)成的爬蟲軟件，像八

網(wǎng)友解答:

不清楚你為什么想學習爬蟲代碼，可能是好奇或者是出于學習的目的吧。爬蟲說的明白、清楚一點，就是解析網(wǎng)頁，獲取數(shù)據(jù)，后續(xù)就是數(shù)據(jù)處理的過程。目前來說，網(wǎng)上也有現(xiàn)成的爬蟲軟件，像八爪魚，F(xiàn)orespider等，如果你急著爬取數(shù)據(jù)，而又不懂編程的話，這些軟件你可以學學，官網(wǎng)都有詳細的教程和例子，花費幾個小時就能掌握。至于你想學習代碼的話，目前主流的編程語言，像python，java，php，nodejs等都可以做爬蟲，也有現(xiàn)成的包或框架，你直接使用就行，要學的內(nèi)容主要如下：

1.熟悉基本的網(wǎng)頁知識。像前端的html，css，js等，我們要爬去的數(shù)據(jù)大部分都存儲在網(wǎng)頁中，你需要對網(wǎng)頁結構和基本標簽有個基本了解，沒必要熟練所掌握，大概看得明白就行，如果你還沒有一點基礎的話，建議花費個一兩天時間學習一下，網(wǎng)上的教程很多，你可以學習一下，如菜鳥教程http://www.runoob.com/html/html-tutorial.html等：

2.再著就是要會使用瀏覽器的開發(fā)者工具，大部分情況下，網(wǎng)頁的數(shù)據(jù)都是靜態(tài)的，在網(wǎng)頁源碼中，但有些情況下，數(shù)據(jù)是異步加載的的，動態(tài)的，可能是一個json文件，這個時候你就需要會抓包分析，找到真實數(shù)據(jù)的URL，獲取數(shù)據(jù)：

3.學一門編程語言。如果你沒有基礎的話，我建議學習python，簡單易學，容易上手，開發(fā)效率高，生態(tài)環(huán)境良好，社區(qū)活躍，有大量的第三方包可以使用，像專門爬蟲的包urllib,urllib2,requests等，都很好學，花個個把小時，你就會基本使用：

4.基本入門后，你就可以試著學習爬蟲框架了，可以提高你的開發(fā)效率，不用重復造輪子，很快就能搭建一個爬蟲系統(tǒng)，像python的scrapy框架等，其他語言也都會提供爬蟲框架，你可以深入的學習一下，一定會對你有大的幫助：

我總結的就是這幾點，我也才入門爬蟲，學習的時間不長，主要是需要網(wǎng)上的數(shù)據(jù)做分析才學的，至于后面如何分析和處理數(shù)據(jù)，也才開始慢慢接觸，只要你用心學習，多做個例子，多調試調試代碼，很快就能掌握爬蟲的，對于爬取網(wǎng)上大部分數(shù)據(jù)來說，絕對沒有問題，希望以上分享的內(nèi)容能對你有所幫助吧，可以共同探討、學習。

網(wǎng)友解答:

想寫代碼，還是比較容易的，前提是學校學過編程，最好通過計算機二級，一般都沒有問題。寫代碼，需要先確定自己要學的語言，而做爬蟲相關的，幾乎所有的網(wǎng)絡編程語言都支持吧，就我接觸的幾種編程語言中，使用比較多的有Java、PHP、Python、Go等，而做爬蟲，我在Java和Python編程語言方面有所實踐，下面主要說說這兩種編程語言在爬蟲中的表現(xiàn)吧。

要做爬蟲，Web開發(fā)的一些必備技術是不可或缺的，如HTML、CSS以及一些JS等，如果不懂這些，寫爬蟲就是個笑話。這些也是做爬蟲的先決條件，要做爬蟲，這些必須要學，并且有自己的學習心得。寫爬蟲需要先讀懂目標網(wǎng)站的相關html源碼，針對所爬取的內(nèi)容決策獲取的方式，常見的有正則表達式提取、Document元素獲取等。

網(wǎng)絡爬蟲按照系統(tǒng)結構和實現(xiàn)技術，大致可以分為以下幾種類型：通用網(wǎng)絡爬蟲（General Purpose Web Crawler）聚焦網(wǎng)絡爬蟲（Focused Web Crawler）增量式網(wǎng)絡爬蟲（Incremental Web Crawler）深層網(wǎng)絡爬蟲（Deep Web Crawler）。實際的網(wǎng)絡爬蟲系統(tǒng)通常是幾種爬蟲技術相結合實現(xiàn)的。

有了Web開發(fā)的基礎之后，我們再來看看爬蟲的事。我們先聊聊Java做爬蟲的技術點，使用Java做爬蟲，主要是通過HttpClient來實現(xiàn)的。使用HttpClient發(fā)送請求、接收響應很簡單，一般需要如下幾步：

創(chuàng)建HttpClient對象。

創(chuàng)建請求方法的實例，并指定請求URL。如果需要發(fā)送GET請求，創(chuàng)建HttpGet對象；如果需要發(fā)送POST請求，創(chuàng)建HttpPost對象。如果需要發(fā)送請求參數(shù)，可調用HttpGet、HttpPost共同的setParams(HetpParams params)方法來添加請求參數(shù)；對于HttpPost對象而言，也可調用setEntity(HttpEntity entity)方法來設置請求參數(shù)。調用HttpClient對象的execute(HttpUriRequest request)發(fā)送請求，該方法返回一個HttpResponse。調用HttpResponse的getAllHeaders()、getHeaders(String name)等方法可獲取服務器的響應頭；調用HttpResponse的getEntity()方法可獲取HttpEntity對象，該對象包裝了服務器的響應內(nèi)容。程序可通過該對象獲取服務器的響應內(nèi)容。釋放連接。無論執(zhí)行方法是否成功，都必須釋放連接。

Java除了使用HttpClient做爬蟲之外，還可以通過Jsoup，但是相對于HttpClient，在抓取上Jsoup比較弱，主要是使用擴展htmlparser的功能吧，解析html。相關的示例代碼都可以在網(wǎng)上很容易找到，懂得一些Java基礎和Web基礎的讀者都可以試試。

下面來聊聊Python在爬蟲上的表現(xiàn)，Python標準庫中，用于網(wǎng)頁數(shù)據(jù)采集的有urllib庫，同樣，有很多優(yōu)秀的開源庫，像BeautifulSoup庫、Requests庫等。目前我學Python做爬蟲也處于初始階段，使用過的庫有標準庫中的urllib、re庫，非標準庫中的bs4、selenium。由于剛開始實踐，各方面認識還不夠，在我的爬蟲代碼中urllib做網(wǎng)頁數(shù)據(jù)采集用的，re是正則驗證的庫，使用bs4解析Document，比較簡單的獲取數(shù)據(jù)，我使用selenium自動打開瀏覽器，獲取懶加載的圖片之類的數(shù)據(jù)。除此之外，在網(wǎng)上還找到一些庫，這些都是以后Python學習的方法，也推薦給各位。

功能齊全的爬蟲grab – 網(wǎng)絡爬蟲框架（基于pycurl/multicur）。scrapy – 網(wǎng)絡爬蟲框架（基于twisted），不支持Python3。pyspider – 一個強大的爬蟲系統(tǒng)。cola – 一個分布式爬蟲框架。portia – 基于Scrapy的可視化爬蟲。restkit – Python的HTTP資源工具包。它可以讓你輕松地訪問HTTP資源，并圍繞它建立的對象。demiurge – 基于PyQuery的爬蟲微框架。

總體而言，寫爬蟲Python比較清爽，有優(yōu)勢，Java就比較笨重，用Java寫爬蟲，有大炮打蚊子之嫌。而關于PHP和GO寫爬蟲只是聽說過，本人沒有這方面的實踐，暫不多說。

作者：夕陽雨晴，歡迎關注我的酷米號：偶爾美文，主流Java，為你講述不一樣的碼農(nóng)生活。

国产成人毛片视频|星空传媒久草视频|欧美激情草久视频|久久久久女女|久操超碰在线播放|亚洲强奸一区二区|五月天丁香社区在线|色婷婷成人丁香网|午夜欧美6666|纯肉无码91视频

相關推薦