在写爬虫的时候,有时候会遇到非utf-8的网页,可能会造成中文乱码问题,比如说遇到的是gbk的编码。直接打印中文就会变成乱码
1.查看网页编码
打开浏览器控制台查看编码
document.characterSet
2.转换编码
从gbk转成utf-8
$结果字符串 = mb_convert_encoding($原字符串, "目标便编码","原编码");
$contents = mb_convert_encoding($contents, "utf-8","gbk");
在写爬虫的时候,有时候会遇到非utf-8的网页,可能会造成中文乱码问题,比如说遇到的是gbk的编码。直接打印中文就会变成乱码
打开浏览器控制台查看编码
document.characterSet
从gbk转成utf-8
$结果字符串 = mb_convert_encoding($原字符串, "目标便编码","原编码");
$contents = mb_convert_encoding($contents, "utf-8","gbk");