爬蟲爬取某個(gè)網(wǎng)站進(jìn)行個(gè)股分析時(shí),源代碼關(guān)鍵數(shù)字被屏蔽,是因?yàn)镴avaScript的原因嗎?要怎么破解?
網(wǎng)友解答: 蠻有意思的,搞得我很想去看看。關(guān)鍵數(shù)字被屏蔽了,可以看看渲染后的html是否為數(shù)字,還是一串unicode編碼,也有可能是一串圖片(很少有公司有實(shí)力做到這一步)?;臼窍旅鎺?/p>
蠻有意思的,搞得我很想去看看。關(guān)鍵數(shù)字被屏蔽了,可以看看渲染后的html是否為數(shù)字,還是一串unicode編碼,也有可能是一串圖片(很少有公司有實(shí)力做到這一步)?;臼窍旅鎺最悾?/p>
1:字體庫加密,在我的文章里有過一篇文章說的字體庫加密的破解可以對照下。驗(yàn)證方式是點(diǎn)開源代碼看看是不是一串unicode編碼。
2:圖片,使用圖片拼接數(shù)學(xué)在百度的指數(shù)上面有應(yīng)用,這個(gè)麻煩一點(diǎn)點(diǎn)。用f12看下樣式就好。
3:Js動(dòng)態(tài)控制css實(shí)現(xiàn)渲染。汽車之家的m站是這種,就是設(shè)置某個(gè)css樣式背景是某個(gè)字符,也可以通過f12看看css就可以確定了。
至于反爬,感覺沒點(diǎn)真功夫比較懸,我估計(jì)是第一種,畢竟簡單。這里并不是不想教方法,因?yàn)閮?nèi)容有點(diǎn)多,我一下子說不完,后面想看的可以關(guān)注我。第一種我的文章已經(jīng)寫了。