爬取的中文編碼格式不是UTF-8,無法正常顯示,查看編碼格式:
編碼格式爲ISO-8859-1(長見識啦~)
在使用urllib獲取reqest的response的時候,還要進行解碼。
解決方法:
txt.decode('utf8', 'ignore')
報錯是沒有了 但是抓取的漢字 還是亂碼
解決辦法來了:
#文字亂碼 req.encoding = 'GB2312' # 需要添加這一行,告知html文件解碼方式 多種解析方式UTF-8 GB2312 ISO-8859-1 req.raise_for_status() html = req.text bf = BeautifulSoup(html)