URL編碼總結

URL編碼總結

          URL是Universal Resource Locator的簡稱,翻譯過來那就是統一資源定位符,好吧,我們經常會俗稱爲網頁地址。一個URL的格式通常是這樣的:協議類型://服務器地址(必要時需加上端口號)/路徑/文件名?參數,比如http://zh.wikipedia.org:80/w/index.php?title=Special,協議是HTTP,服務器地址是zh.wikipedia.org,端口是80,路徑和文件名是/w/index.php,參數是title=Special。還有個與URL相關的概念URI,URI是統一資源標示符,URL是URI的一種,用於標示互聯網資源,並指定了對資源的操作和獲取方法。URL大部分情況下都只有英文字符,這樣也就不存在編碼問題,如果URL中有了中文,那麼編碼規則是什麼呢?實際上,RFC並沒有標準規定URL的編碼方式,所以不同的瀏覽器的表現可能是不同的,下面就總結下。主要參考了阮一峯的關於URL編碼一文,當然有些地方我測試的結果會有所不同,大家可以根據自己的系統環境進行區分。


1 URL路徑中包含中文

       如果URL路徑中包含中文,經過測試發現不管IE6.0還是Chrome,編碼都是採用的UTF-8。其他瀏覽器暫時沒有測試,猜想應該一致。

       測試的URL是:http://zh.wikipedia.org/wiki/中文.在chrome的開發者工具中可以看到實際的URL是http://zh.wikipedia.org/wiki/%E4%B8%AD%E6%96%87,其中E4B8AD E69687正是"中文"的UTF-8編碼。


2 URL查詢參數中包含中文

       如果查詢參數中包含中文,則經過測試發現,IE6.0採用的是操作系統編碼,Chrome採用的是UTF-8編碼

       測試的URL是:http://www.baidu.com/s?wd=中文。通過測試可以發現,在IE6下面“中文”實際被轉成了%B0%D9%B6%C8,chrome下面則轉成了%E4%B8%AD%E6%96%87


3 表單參數的中文編碼

       表單提交時,不管是IE6還是Chrome,參數中中文的編碼則根據HTML代碼中指定的字符編碼來決定(也就是html代碼中標籤指定的字符編碼)。當然這是在form中沒有指定accept-charset的情況下,如果form中加了accept-charset="GBK”屬性,則表單參數則由accept-charset指定編碼進行編碼。

       測試代碼如下:

<html>
<head>
<meta http-equiv="Content-Type" content="text/html;charset=UTF-8">
<title>測試</title>
</head>
<body>
<h2>表單中文編碼測試</h2>
<form method="GET" action="http://www.baidu.com/s">
<input type="text" name="wd">
<input type="submit" value="OK">
</form>
</body>
</html>

       可以發現,當指定charset=UTF-8時,你在輸入項輸入“中文”,則實際提交後會用UTF-8編碼成%E4%B8%AD%E6%96%87,而如果charset=GBK,則輸入項會用GBK編碼成%D6%D0%CE%C4。用POST方法也是一樣的。

       而如果加上accept-charset屬性,代碼改成下面這樣,則表單參數編碼由accept-charset中指定的編碼來決定。如下所示,雖然meta中指定的是UTF-8編碼,但是表單參數是GBK編碼的。

<html>
<head>
<meta http-equiv="Content-Type" content="text/html;charset=UTF-8">
<title>測試</title>
</head>
<body>
<h2>表單中文編碼測試</h2>
<form method="GET" action="http://www.baidu.com/s" accept-charset="GBK">
<input type="text" name="wd">
<input type="submit" value="OK">
</form>
</body>
</html>
還有一點需要注意的是,如果輸入項包含空格,比如“中文 哈哈”,則空格會被編碼爲+。


4 Javascript HTTP的中文參數編碼

       之前說的是直接通過瀏覽器發HTTP請求的中文編碼情況,那如果是通過Javascript發送HTTP請求,會是什麼情況呢?根據測試發現,通過Javascript發送的HTTP請求,IE6的爲操作系統編碼,Chrome中文參數編碼是UTF-8

       測試:可以打開Chrome的http://zh.wikipedia.org/wiki/%E4%B8%AD%E6%96%87,在開發者工具的控制檯輸入$.ajax("/wiki/英語"),可以在網絡連接中發現"英語"採用的UTF-8編碼。IE中可以另外編輯一個測試的網頁,用JS測試即可。


5 Javascript編碼函數

       前面說的很多種中文編碼情況,不同的瀏覽器處理方式也不盡相同,這是件非常糾結的事情,一個好的方法是採用JS的函數在表單提交前對參數進行統一處理。

       第一個函數是escape,escape是一個全局函數,它使用十六進制的數字(%xx或%uxxxx)編碼字符串爲unicode碼。小於等於0xFF的字符將被轉義爲%xx,大於0xFF的將被轉移爲%uxxxx,可以使用unescape函數解碼escape函數編碼的字符串。escape已被ecma標準拋棄,現在一般推薦使用encodeURI或encodeURIComponent函數代替。

       escape實例: escape(“中文”)的結果是"%u4E2D%u6587",escape("abc def")的結果是"abc%20def",空格編碼爲0x20。無論網頁編碼是什麼,經過JS的escape操作後,都會變成unicode碼。如第3節提到的,由於表單提交時參數中的空格會被編碼爲+,所以escape函數不對"+"進行編碼,所以escape("abc+def")結果還是"abc+def"。

       第二個函數是encodeURI,它也是全局函數,encodeURI的目的是採用UTF-8給URI進行編碼。ASCII的字母、數字不編碼,- _ . ! ~ * ' ( )也不編碼,URI中具有特殊意義的字符也不編碼(如; / ? : @ & = + $ , #等)。參數中的其他字符將轉換成UTF-8編碼方式的字符,並使用十六進制轉義序列(%xx)生成替換。對應的解碼函數是decodeURI。

       encodeURI實例:encodeURI("測試 http://www.baidu.com/test?v=ab cd+@#")結果爲"%E6%B5%8B%E8%AF%95%20http://www.baidu.com/test?v=ab%20cd+@#"

       第三個函數是encodeURIComponent,與encodeURI不同的是,它會對特殊符號如"; / ? : @ & = + $ , #"進行編碼。解碼函數是decodeURIComponent。

       encodeURIComponent實例:encodeURIComponent("測試 http://www.baidu.com/test?v=ab cd+@#")結果爲%E6%B5%8B%E8%AF%95%20http%3A%2F%2Fwww.baidu.com%2Ftest%3Fv%3Dab%20cd%40%23%2B


6 參考資料


發佈了121 篇原創文章 · 獲贊 133 · 訪問量 68萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章