網頁編碼的問題

用python 寫爬蟲的過程中,會遇到這樣一些網頁,它的html源碼的編碼和head中的charset的設置並不一致,用python的chardet模塊進行檢測會發現,結果中的‘confidence’並不是1,例如,可能是0.99. 這說明,該網頁的編碼可能有多種,遇到這樣的情況,想要用charset的編碼對網頁的進行解碼可能會出錯。這裏找到了一篇文章,對網頁編碼問題總結的很全面,我遇到的是聲明爲gb2312編碼的網頁,其中部分用的死其它編碼,按照這篇文章的介紹,直接用GBK編碼解碼就可以了。

鏈接:【整理】關於HTML網頁源碼的字符編碼(charset)格式(GB2312,GBK,UTF-8,ISO8859-1等)的解釋 | 在路上


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章