解決問題:UnicodeDecodeError utf-8 codec cant decode byte 0xb5 in position 116:

爬取的中文編碼格式不是UTF-8,無法正常顯示,查看編碼格式:

編碼格式爲ISO-8859-1(長見識啦~)
在使用urllib獲取reqest的response的時候,還要進行解碼。

解決方法:

txt.decode('utf8', 'ignore')

報錯是沒有了  但是抓取的漢字 還是亂碼

 

解決辦法來了:

#文字亂碼
req.encoding = 'GB2312'  # 需要添加這一行,告知html文件解碼方式 多種解析方式UTF-8 GB2312 ISO-8859-1 req.raise_for_status() html = req.text bf = BeautifulSoup(html)
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章