爬蟲下來的網頁中文亂碼解決

# -*- coding:UTF-8 -*-
import requests

if __name__ == '__main__':
    target = 'http://www.biqukan.com/1_1094/5403177.html'
    req = requests.get(url=target)
    print(req.text)

運行結果:

print(req.encoding)  # 查看網頁返回的字符集類型。發現,網頁的字符集類型採用的是 GBK 編碼格式。請求網頁返回的是 ISO-8859-1 不一致,所以亂碼。

通過 req.encoding來設置編碼形式,亂碼解決。

# -*- coding:UTF-8 -*-
import requests

if __name__ == '__main__':
    target = 'http://www.biqukan.com/1_1094/5403177.html'
    req = requests.get(url=target)
    #print(req.encoding)  # 查看網頁返回的字符集類型
    req.encoding = "gbk"   #設定編碼方式
    print(req.text)

(req.encoding)  # 查看網頁返回的字符集類型print(req.encoding)  # 查看網頁返回的字符集類型 print(req.encoding)  # 查看網頁返回的字符集類型

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章