首先,說說 JSP/Servlet
中的幾個編碼的作用
在
JSP/Servlet
中主要有以下幾種設置編碼的方式:
- pageEncoding ="UTF-8"
- contentType = "text/html;charset=UTF-8"
- request.setCharacterEncoding("UTF-8")
- response.setCharacterEncoding("UTF-8")
其中前兩個只能用於JSP
中,而後兩個可以用於 JSP
和 Servlet
中。
1、pageEncoding="UTF-8"
的作用是設置 JSP
編譯成 Servlet
時使用的編碼
衆所周知,JSP
在服務器上是要先被編譯成 Servlet
的。pageEncoding="UTF-8"
的作用就是告訴 JSP
編譯器在將 JSP
文件編譯成 Servlet
時使用的編碼。通常,在 JSP
內部定義的字符串(直接在 JSP
中定義,而不是從瀏覽器提交的數據)出現亂碼時,很多都是由於該參數設置錯誤引起的。例如,你的JSP
文件是以GBK
爲編碼保存的,而在JSP
中卻指定pageEncoding="UTF-8"
,就會引起JSP
內部定義的字符串爲亂碼。
另外,該參數還有一個功能,就是在JSP中不指定 contentType
參數,也不使用response.setCharacterEncoding
方法時,指定對服務器響應進行重新編碼的編碼。
2、contentType="text/html;charset=UTF-8"
的作用是指定對服務器響應進行重新編碼的編碼
在不使用 response.setCharacterEncoding
方法時,用該參數指定對服務器響應進行重新編碼的編碼。
3、
request.setCharacterEncoding("UTF-8")
的作用是設置對客戶端請求進行重新編碼的編碼。
該方法用來指定對瀏覽器發送來的數據進行重新編碼(或者稱爲解碼)時,使用的編碼。
4、
response.setCharacterEncoding("UTF-8")
的作用是指定對服務器響應進行重新編碼的編碼。
服務器在將數據發送到瀏覽器前,對數據進行重新編碼時,使用的就是該編碼。
其次,要說一說瀏覽器是怎麼樣對接收和發送的數據進行編碼的
response.setCharacterEncoding("UTF-8")
的作用是指定對服務器響應進行重新編碼的編碼。同時,瀏覽器也是根據這個參數來對其接收到的數據進行重新編碼(或者稱爲解碼)。所以在無論你在 JSP
中設置 response.setCharacterEncoding("UTF-8")
或者response.setCharacterEncoding ("GBK")
,瀏覽器均能正確顯示中文(前提是你發送到瀏覽器的數據編碼是正確的,比如正確設置了pageEncoding
參數等)。可以做個實驗,在JSP
中設置response.setCharacterEncoding("UTF-8")
,在 IE
中顯示該頁面時,在 IE
的菜單中選擇 "
查看 (V)"-->"
編碼(D)"
中可以查看到是 " Unicode(UTF-8)"
,而在在 JSP
中設置response.setCharacterEncoding("GBK")
,在 IE
中顯示該頁面時,在 IE
的菜單中選擇 "
查看(V)-->
編碼(D)"
中可以查看到是"
簡體中文(GB2312)"
。
瀏覽器在發送數據時,對 URL
和參數會進行 URL
編碼,對參數中的中文,瀏覽器也是使response.setCharacterEncoding
參數來進行 URL
編碼的。以百度和 GOOGLE
爲例,如果你在百度中搜索"漢字",百度會將其編碼爲"%BA%BA%D7%D6"
。而在 GOOGLE
中搜索"漢字",GOOGLE
會將其編碼爲 "%E6%B1%89%E5%AD%97"
,這是因爲百度的response.setCharacterEncoding
參數爲 GBK
,而 GOOGLE
的response.setCharacterEncoding
參數爲 UTF-8
。
瀏覽器在接收服務器數據和發送數據到服務器時所使用的編碼是相同的,默認情況下均爲 JSP
頁面的 response.setCharacterEncoding
參數(或者 contentType
和 pageEncoding
參數),我們稱其爲瀏覽器編碼。當然,在IE中可以修改瀏覽器編碼(在IE的菜單中選擇"
查看(V)-->
編碼(D)"
中修改),但通常情況下,修改該參數會使原本正確的頁面中出現亂碼。一個有趣的例子是,在 IE
中瀏覽 GOOGLE
的主頁時,將瀏覽器編碼修改爲"簡體中文(GB2312)"
,此時,頁面上的中文會變成亂碼,不理它,在文本框中輸入"漢字",提交,GOOGLE
會將其編碼爲"%BA%BA%D7%D6"
,可見,瀏覽器在對中文進行URL
編碼時,使用的就是瀏覽器編碼。
弄清了瀏覽器是在接收和發送數據時,是如何對數據進行編碼的了,再來看看服務器是在接收和發送數據時,是如何對數據進行編碼的。
對於發送數據,服務器按照response.setCharacterEncoding—>contentType—>pageEncoding
的優先順序,對要發送的數據進行編碼。
對於接收數據,要分三種情況。一種是瀏覽器直接用URL提交的數據,另外兩種是用表單的GET
和 POST
方式提交的數據。
因爲各種 WEB
服務器對這三種方式的處理也不相同,所以我們以 Tomcat5.0
爲例。
無論使用那種方式提交,如果參數中包含中文,瀏覽器都會使用當前瀏覽器編碼對其進行 URL
編碼。
對於表單中 POST
方式提交的數據,只要在接收數據的 JSP
中正確request.setCharacterEncoding
參數,即將對客戶端請求進行重新編碼的編碼設置成瀏覽器編碼,就可以保證得到的參數編碼正確。有人可能會問,那如何得到瀏覽器編碼呢?上面提過了,在默認請情況下,瀏覽器編碼就是你在響應該請求的 JSP
頁面中response.setCharacterEncoding
設置的值。所以對於 POST
表單提交的數據,在獲得數據的 JSP
頁面中 request.setCharacterEncoding
要和生成提交該表單的JSP頁面的 response.setCharacterEncoding
設置成相同的值。
對於 URL
提交的數據和表單中 GET
方式提交的數據,在接收數據的 JSP
中設置 request.setCharacterEncoding
參數是不行的,因爲在 Tomcat5.0
中,默認情況下使用ISO-8859-1
對 URL
提交的數據和表單中 GET
方式提交的數據進行重新編碼(解碼),而不使用該參數對 URL
提交的數據和表單中 GET
方式提交的數據進行重新編碼(解碼)。要解決該問題,應該在 Tomcat
的配置文件的 Connector
標籤中設置useBodyEncodingForURI
或者 URIEncoding
屬性,其中 useBodyEncodingForURI
參數表示是否用 request.setCharacterEncoding
參數對 URL
提交的數據和表單中 GET
方式提交的數據進行重新編碼,在默認情況下,該參數爲 false
(Tomcat4.0
中該參數默認爲true
);URIEncoding
參數指定對所有 GET
方式請求(包括 URL
提交的數據和表單中 GET
方式提交的數據)進行統一的重新編碼(解碼)的編碼。URIEncoding
和 useBodyEncodingForURI
區別是,URIEncoding
是對所有 GET
方式的請求的數據進行統一的重新編碼(解碼),而 useBodyEncodingForURI
則是根據響應該請求的頁面的request.setCharacterEncoding
參數對數據進行的重新編碼(解碼),不同的頁面可以有不同的重新編碼(解碼)的編碼。所以對於 URL
提交的數據和表單中 GET
方式提交的數據,可以修改 URIEncoding
參數爲瀏覽器編碼或者修改 useBodyEncodingForURI
爲true
,並且在獲得數據的 JSP
頁面中 request.setCharacterEncoding
參數設置成瀏覽器編碼。
下面總結下,以 Tomcat5.0
爲 WEB
服務器時,如何防止中文亂碼
- 對於同一個應用,最好統一編碼,推薦爲 UTF-8 ,當然 GBK 也可以。
- 正確設置 JSP 的 pageEncoding 參數
- 在所有的 JSP/Servlet 中設置 contentType="text/html;charset=UTF-8" 或response.setCharacterEncoding("UTF-8") ,從而間接實現對瀏覽器編碼的設置。
- 對於請求,可以使用過濾器或者在每個 JSP/Servlet 中設置request.setCharacterEncoding ("UTF-8") 。同時,要修改 Tomcat 的默認配置,推薦將 useBodyEncodingForURI 參數設置爲 true ,也可以將 URIEncoding 參數設置爲 UTF-8 (有可能影響其他應用,所以不推薦.)。