轉
原地址: http://www.zhxl.me/1409.html
這裏記錄的是一個門外漢解決使用 urllib2 抓取網頁時遇到亂碼、崩潰、求助、解決和漲經驗的過程。這類問題,事後看來只是個極小極小的坑,不過竟然花去很多時間,也值得記錄一下。過程如下:
目標:
代碼:
1
2
3
4
5
6
|
#
coding: u8 import
urllib2 url
=
"http://sports.sina.com.cn/g/premierleague/index.shtml" response
=
urllib2.urlopen(url) html
=
response.read() print
html |
輸出:
wױ83’͠L/J
.uVխ[w5;:S煝{7l!Zp8′-y϶=ePUsł;__Zj
::]K챵
eYڕkV%IBUVY”*’)ڤS.
JT>”TTZk+!x*)ld2I,kUUҭ/kXjjkHI U0n2}jUSݲ”>!pj^[LJg’o^=Nqȕ7n|57yy’\ul
j=9T,g/t0ݕ7’^o|v}>8=7흯!tpٹˏgFS?zd~`MuC%U2\ f߉Vqߍ7~2~ɓlE=}M}Xwo}us’>?*zpS:7Oݚ~чb=
HK!sعinQR}@TsY|,#b\d+#yM@qaRTPVNw
?[((tGP,A$O/EXP)oNgA\`Z
4
eL7ȓVn+
ɄeR fT`&WՂbV
f{
j_p@-@[Ib_ͷCZ’!4O1C,کhy b0W(ժZ˨V5-ټX)5{EkvXÝN (PPUCkϫ? j(
V3{Z!LOOP+LP%WPL!\=! @XD8ׯjpT,W+#we~م {CBo@_Y+ijp;^,=(h :NxH|Ar]-|Bkq<
ڻ+}.ܹlt.)cptRXJ4CJЃBv@BXdP&6dógsR^=/fb@s#m} uZh.V80_)$.1W
hS*zQJÑ|ă{nIPa±a#نL<SA
%^yg2*\fxJhQh_FBK(c%cBKwaHeRB 8w6<ϾK @.k*[k|^_¹BV;,pu]24Y
BwԢCm3`>5#FzFG-%Ũ
W0A{TȪ#u4@e24߈*:*6Ђt&XGe@dc%cເh|y$HhGv3s$(Y)sYMvE@lC(.tkب6K(E;Op1?:
D6wОƘfO&zqZ3Z>0MC{ڟi#.
tPڻu-u-t38X Wt2h!.>9;TVKrj_$yABZȊ6.ƭI\yK:¬
s#lhsxzb=INse/FUad4H3lnHo0T^”j*]yfrMY!-#I(YVaΡ@1kE뗴2=qRtۈh@y@(GX)I-Z$lNX,vg^~cE
/虯&jz=АUdY__\FGA} …
首先想到編碼問題,參考了《也談Python的中文編碼處理》一文 ,感覺基本明白怎麼回事兒了,按理說
1
|
isinstance (html,
str )
= =
True |
並且頁面的編碼確定爲 GBK,那麼
1
|
html.decode( 'gbk' ).encode( 'utf-8' ) |
就可以將機器碼以 gbk 解碼,再重新以 utf-8 編碼,就可以得到正確的文本。可是收到這樣的提示:
UnicodeDecodeError: ‘gbk’ codec can’t decode bytes in position 1-2: illegal multibyte sequence
經過在 v2ex 求助,以及反覆折騰了一下發現得到的果然是 gzip 過的亂碼,於是嘗試通過 zlib 解壓縮
1
2
|
import
zlib html
=
zlib.decompress(html) |
可是卻得到下面的錯誤
zlib.error: Error -3 while decompressing data: incorrect header check
無奈,只得用 gzip 庫和 StringIO 庫繞路解決
1
2
3
|
import
gzip, StringIO html
=
gzip.GzipFile(fileobj = StringIO.StringIO(html),
mode = "r" ) html
=
html.read().decode( 'gbk' ).encode('utf - 8 ’) |
終於得到了正確的內容和正確的編碼~ ^^
問題到這裏就解決了,可是對於不能直接使用簡潔的 zlib 庫表示很不甘心,畢竟根據 python 的文檔 gzip 庫也是調用 zlib 來解壓的,爲什麼不直接用 zlib 呢?功夫不負有心人,最後終於在 StackOverflow 上找到了答案。於是最終代碼如下:
1
2
3
4
5
6
7
8
|
request
=
urllib2.Request(url) request.add_header( 'Accept-encoding' ,
'gzip' ) opener
=
urllib2.build_opener() response
=
opener. open (request)html
=
response.read() gzipped
=
response.headers.get( 'Content-Encoding' ) if
gzipped: html
=
zlib.decompress(html, 16 + zlib.MAX_WBITS) print
html |
代碼裏在 request header 中默認加入了接受 gzip,服務器會優先返回 gzip 後的頁面,這樣極大減少數據流的大小,絕大多數服務器都是支持 gzip 的。之後對於意外情況,也加入了對 response header 的判斷,對於不包含“Content-Encoding”的數據流就不會去對其解壓縮。這樣看上去妥妥的了,但其實還是會有很多意外狀況,超出這篇的範圍,這裏就不涉及了。
後記,後來才知道這是一個很常見的坑,出於對防止抓取的考慮,部分網站採取了各種措施。例如:對於沒有指定 Accept-Encoding 的請求也會返回 gzip 過的內容;會驗證 Request Header 的 User-Agent 和 Referer 甚至 cookies 之類的。對於抓取感興趣的可以繼續閱讀《用Python抓取網頁的注意事項》,網頁抓取雖然是個很成熟的領域,但門外漢面臨諸多未知的挑戰,唯有多讀多做多積累纔好。