爬蟲網頁編碼問題解決思路

原創

新手PS

2018-09-12 06:21

用python抓取網頁，很容易遇到例如：'utf8' codec can't decode byte 0xc5 類似的編碼的問題。

這裏提供幾種排查思路：

可以先查看你的Linux系統是不是UTF-8。如果不是的話可以修改：
echo $LANG
export LANG=en_US.UTF8
首先python2默認所有編碼統一是unicode，因此你可以在代碼前面加入
```
#-*-coding:utf-8 -*-
```
網頁的編碼可能爲gbk，可以把gbk先decode，在統一encode爲utf-8。
```
response = response.decode('gbk','ignore').encode('utf-8')
```

也可以利用import chardet先做判斷

encoding_dict = chardet.detect(response)
web_encoding = encoding_dict['encoding']
if web_encoding == 'utf-8' or web_encoding == 'UTF-8':
  html = response
else :
   html = response.decode('gbk','ignore').encode('utf-8')

我遇到的問題就解決了，如果有其他情況，我會繼續補充，歡迎指正

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

爬蟲網頁編碼問題解決思路

CentOS7 中文man（cman）配置方法

《MariaDB必知必會》筆記

HTTP與TCP的關係，無連接、無狀態詳解

爬蟲分頁爬取糗事百科

簡單爬蟲模擬登陸phpmyadmin

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結