使用Curl進行抓取遠程內容時url中文編碼問題

PHP中對於URL進行編碼,可以使用 urlencode() 或者 rawurlencode(),二者的區別是前者把空格編碼爲 '+',而後者把空格編碼爲 '%20',不過應該注意的是,在編碼時應該只對部分URL編碼,否則URL中的冒號和反斜槓也會被轉義。下面是詳細解釋:

string urlencode( string str)

返回字符串,此字符串中除了 -_. 之外的所有非字母數字字符都將被替換成百分號(%)後跟兩位十六進制數,空格則編碼爲加號(+)。

例子 1 :urlencode函數與rawurlencode函數區別

$str='博 客';
echo urlencode($str);
echo "
";
echo rawurlencode($str);

url結果:

%B2%A9+%BF%CD
%B2%A9%20%BF%CD

例子 2 :url中文編碼方法
從url:"http://www.baidu.com/s?wd=博 客" 轉爲 url:"http://www.baidu.com/s?wd=%E5%8D%9A%20%E5%AE%A2";

$url='http://www.baidu.com/s?wd=博 客';
$arr=explode('=',$url);
$url=$arr[0].'='.rawurlencode($arr[1]);
echo $url;

結果:

http://www.baidu.com/s?wd=%E5%8D%9A%20%E5%AE%A2

或許用以下url編碼函數

function cn_urlencode($url){
     $pregstr = "/[\x{4e00}-\x{9fa5}]+/u";//UTF-8中文正則
    if(preg_match_all($pregstr,$url,$matchArray)){//匹配中文,返回數組
        foreach($matchArray[0] as $key=>$val){
            $url=str_replace($val, urlencode($val), $url);//將轉譯替換中文
        }
        if(strpos($url,' ')){//若存在空格
            $url=str_replace(' ','%20',$url);
        }
    }
    return $url;
}

url結果:

http://www.baidu.com/s?wd=%E5%8D%9A%20%E5%AE%A2

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章