在寫爬蟲的時候,有時候會遇到非utf-8的網頁,可能會造成中文亂碼問題,比如說遇到的是gbk的編碼。直接打印中文就會變成亂碼
1.查看網頁編碼
打開瀏覽器控制檯查看編碼
document.characterSet
2.轉換編碼
從gbk轉成utf-8
$結果字符串 = mb_convert_encoding($原字符串, "目標便編碼","原編碼");
$contents = mb_convert_encoding($contents, "utf-8","gbk");
在寫爬蟲的時候,有時候會遇到非utf-8的網頁,可能會造成中文亂碼問題,比如說遇到的是gbk的編碼。直接打印中文就會變成亂碼
打開瀏覽器控制檯查看編碼
document.characterSet
從gbk轉成utf-8
$結果字符串 = mb_convert_encoding($原字符串, "目標便編碼","原編碼");
$contents = mb_convert_encoding($contents, "utf-8","gbk");