情景
在爬取非英文網站的頁面時, 如果發現獲取後的網頁字符串無法正常顯示, 出現亂碼. 通常都是因爲解碼所使用的編碼不是網頁原來所使用的編碼. 需要查詢網頁本身的編碼.
查詢網頁編碼
方法一:
1. 打開瀏覽器開發者工具, 切換到console工具.
2. 在控制檯輸入 document.chardet 即可顯示出網頁的編碼格式.
方法二:
使用python獲取網頁編碼格式.
import requests
import chardet
headers = {
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36'
}
url = 'https://www.aiyuke.com/view/cate/zhuangbeiceping.htm'
data = requests.get(url, headers=headers)
print(chardet.detect(data.content)) # 從網頁二進制源碼中判斷出編碼格式