python函數(shù)模塊 如何使用urllib獲取URL?
如何使用urllib獲取URL?首先,我們可以得到要下載的圖像的整個頁面信息。getjpg.py#編碼=utf-8import urllibdef getHtml(url):頁面=urllib.url
如何使用urllib獲取URL?
首先,我們可以得到要下載的圖像的整個頁面信息。getjpg.py#編碼=utf-8import urllibdef getHtml(url):頁面=urllib.urlopen文件(url)html=第頁。閱讀()return htmlprint htmlurlib模塊提供了一個從網(wǎng)頁讀取數(shù)據(jù)的接口。我們可以從WWW和FTP讀取數(shù)據(jù),就像讀取本地文件一樣。首先,我們定義一個gethtml()函數(shù)urllib.urlopen文件()方法用于打開URL地址。read()方法用于讀取URL上的數(shù)據(jù),將URL傳遞給gethtml()函數(shù),并下載整個頁面。執(zhí)行該程序?qū)⒋蛴〕稣麄€網(wǎng)頁。
urllib模塊和urllib2模塊的區(qū)別?
[python]view plain copy
req=urllib2.Request(
[python]view plain copy
url=url,
data=postdata,
headers=headers
)
result=urllib2.urlopen(req)
我們知道HTTP是一個無連接狀態(tài)協(xié)議,但是客戶端和服務器需要保留一些相互的信息,例如cookies。通過cookies,服務器可以知道用戶剛剛登錄到網(wǎng)站,然后允許客戶端訪問某些頁面。因此,我們需要保存cookie,然后附加cookie訪問網(wǎng)站,才能達到效果。在這里,我們需要Python的cookieib和urlib2的合作。如果我們將cookieib綁定到urlib2,我們可以在請求網(wǎng)頁時附加cookie。在構造req請求之前,我們可以獲取一個保存cookies的對象,并將該對象與HTTP處理器、HTTP處理程序資源和urllib2對象綁定:
[Python]view plain copy
CJ=cookielib.LWPCookieJar文件()
cookie_u2;Support=urllib2。HTTP cookie processor(CJ)
#創(chuàng)建一個opener以將HTTP處理器與cookie一起存儲,并設置一個處理程序來處理HTTP url的打開
opener=urllib2。構建開放程序(cookie支持,urllib2.HTT)