Python3.0 如何抓取網頁

原創

jj_liuxin

2020-02-21 22:10

用Python來抓取網頁是很容易的,前面也寫過很多類似的內容,但在Python3.0中,內容多多少少有些不同,下面進行一下介紹.

簡單的抓取網頁:

import urllib.request url="http://google.cn/" response=urllib.request.urlopen(url) page=response.read()

這樣雖然簡單,但如果需要進一步精細的控制就略顯不足了,在Python 3.0中,將2.x中urllib和urllib2進行了整合,使得抓取網頁變得足夠的簡單了.具體的,大家都知道,網頁抓取實際上分爲2步:第一步是發出請求,第二步接收服務器返回的數據,在Python中也是這麼做的.

import urllib.parse import urllib.request url="http://liuxin-blog.appspot.com/messageboard/add" values={"content":"命令行發出網頁請求測試"} data=urllib.parse.urlencode(values) #創建請求對象 req=urllib.request.Request(url,data) #獲得服務器返回的數據 response=urllib.request.urlopen(req) #處理數據 page=response.read()

上面的是POST的數據,衆所周知,還有一種GET的,怎麼做了?

import urllib.parse import urllib.request url="http://www.google.cn/webhp" values={"rls":"ig"} data=urllib.parse.urlencode(values) theurl=url+"?"+data #創建請求對象 req=urllib.request.Request(theurl) #獲得服務器返回的數據 response=urllib.request.urlopen(req) #處理數據 page=response.read()

上面2個例子中的response對象有2個常用的方法,geturl(),info()

geturl()的設置是爲了辨別是否有服務器端的網址重定向,而info()則包含了一系列的信息.

另外一個重要的內容就是錯誤處理了,這裏錯誤處理比較簡單,貼個代碼大家自己琢磨吧

from urllib.request import Request, urlopen from urllib.error import URLError, HTTPError req = Request(someurl) try: response = urlopen(req) except HTTPError, e: print('The server couldn/'t fulfill the request.') print('Error code: ', e.code) except URLError, e: print('We failed to reach a server.') print('Reason: ', e.reason) else: # everything is fine

最後一個是關於認證的了,網頁認證如果大家有相關的網址請發一個過來(沒有測試不方便發),關於Cookie認證的以後再寫