python爬蟲代碼大全需要爬取一個(gè)網(wǎng)站內(nèi)容，需登錄和驗(yàn)證碼，怎么破？

2021-03-29

1415

需要爬取一個(gè)網(wǎng)站內(nèi)容，需登錄和驗(yàn)證碼，怎么破？抓包觀察Cookie，Cookie 復(fù)用或許可以搞定。如果抓取量不大，可以在模擬登錄過程中人工打碼，就是登錄前抓取驗(yàn)證碼圖片存儲(chǔ)到本地，人眼識別后從控制臺(tái)

怎么爬取一個(gè)網(wǎng)站的代碼 python爬蟲代碼大全

需要爬取一個(gè)網(wǎng)站內(nèi)容，需登錄和驗(yàn)證碼，怎么破？

抓包觀察Cookie，Cookie 復(fù)用或許可以搞定。

如果抓取量不大，可以在模擬登錄過程中人工打碼，就是登錄前抓取驗(yàn)證碼圖片存儲(chǔ)到本地，人眼識別后從控制臺(tái)輸入，程序接收后繼續(xù)執(zhí)行抓取。

大量抓取的話可以研究 tessert 識別驗(yàn)證碼，或者對接打碼網(wǎng)站的服務(wù)。

如果可能的話，看看網(wǎng)站有沒有開放API。

爬取不了，爬取本質(zhì)就是用腳本批量訪問。跟你訪問無數(shù)次是一樣的。

爬取知網(wǎng)首先需要知網(wǎng)的訪問權(quán)限。

沒有權(quán)限無論如何是爬取不了的。

第二即使你有訪問權(quán)限，也無法批量下載，知網(wǎng)對訪問量有限制。你爬取20篇以上論文就會(huì)被鎖定賬號無法繼續(xù)下載。