【python】解決網頁gb2312編碼中文亂碼問題

在寫爬蟲的時候,有時候會遇到非utf-8的網頁,可能會造成中文亂碼問題,比如說遇到的是gb2312的編碼。直接打印中文就會變成亂碼

1.查看網頁編碼

document.characterSet

2.正確解碼

網頁使用的是gb2312編碼

str = requests.get("https://www.xxx.com")
# data = str.content.decode('utf-8')  指定編碼
data = str.text.encode('latin1').decode('gbk')

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章