python爬蟲中文亂碼解決方法

python爬蟲中文亂碼

前幾天用python來爬取全國行政區劃編碼的時候,遇到了中文亂碼的問題,折騰了一會兒,才解決。現特記錄一下,方便以後查看。

我是用python的requests和bs4庫來實現爬蟲,這兩個庫的簡單用法可參照python爬取噹噹網的書籍信息並保存到csv文件

亂碼未處理前部分代碼

   url = '要爬取的網頁'
    r = requests.get(url, timeout=30)
    soup = BeautifulSoup(r.text, 'lxml')

亂碼原因

我爬取的網頁使用的編碼是GBK。所以要按GBK編碼,才能避免中文亂碼。

解決亂碼的代碼

   url = '要爬取的網頁'
    r = requests.get(url, timeout=30)
    r.encoding='GBK'   #增加encoding=‘GBK’,解決中文亂碼問題
    soup = BeautifulSoup(r.text, 'lxml')
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章