爬蟲遇到亂碼怎麼辦? 解決亂碼問題

情景

在爬取非英文網站的頁面時, 如果發現獲取後的網頁字符串無法正常顯示, 出現亂碼. 通常都是因爲解碼所使用的編碼不是網頁原來所使用的編碼. 需要查詢網頁本身的編碼.

查詢網頁編碼

方法一:

1. 打開瀏覽器開發者工具, 切換到console工具.
2. 在控制檯輸入 document.chardet 即可顯示出網頁的編碼格式.

方法二:

使用python獲取網頁編碼格式.

import requests
import chardet

headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36'
}

url = 'https://www.aiyuke.com/view/cate/zhuangbeiceping.htm'
data = requests.get(url, headers=headers)
print(chardet.detect(data.content)) 	# 從網頁二進制源碼中判斷出編碼格式
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章