JAVA WEB學習筆記(1)_____Servlet 中文亂碼問題及解決方案剖析

一、常識瞭解

 

1.GBK包含GB2312,即如果通過GB2312編碼後可以通過GBK解碼,反之可能不成立;

2.java.nio.charset.Charset.defaultCharset() 獲得平臺默認字符編碼;

3.getBytes() 是通過平臺默認字符集進行編碼;

 

二、中文亂碼出現

 

在學習任何一門技術時,經常會有初學者遇到中文亂碼問題,比如MySQL,是因爲在安裝時沒有設置;而在Servlet中,也會遇到中文亂碼問題;

比如:

OutputStream out = response.getOutputStream();

out.write(String );

輸出中文時可能會出現亂碼;

比如:

  1. protected void doGet(HttpServletRequest request, HttpServletResponse response) throws ServletException, IOException {  
  2.           
  3.         OutputStream out = response.getOutputStream();  
  4.         String data = "博客";  
  5.         out.write(data.getBytes("UTF-8"));  
  6.     }  
protected void doGet(HttpServletRequest request, HttpServletResponse response) throws ServletException, IOException {
		
		OutputStream out = response.getOutputStream();
		String data = "博客";
		out.write(data.getBytes("UTF-8"));
	}


輸出亂碼的問題是程序用UTF-8編碼,而瀏覽器用GB2312解碼,因此會出現亂碼;

 

Servlet亂碼分爲request亂碼和response亂碼;

 

 

三、response中文亂碼

 

在網上很有效的解決方法是添加:

response.setCharacterEncoding("UTF-8");

解決不了,後來又搜到一條解決方法是:

respnse.setHeader("content-type","text/html;charset=UTF-8");

兩句都填上,後來終於解決了這個問題;

其實我們應該思考一下本質;

  

問題1:

 

我們這裏先來說明一下錯誤的原因,下圖是顯示亂碼的流程圖:

 

response.setContentType("text/html;charset=UTF-8"); 目的是爲了控制瀏覽器的行爲,即控制瀏覽器用UTF-8進行解碼;

response.setCharacterEncoding("UTF-8"); 的目的是用於response.getWriter()輸出的字符流的亂碼問題,如果是response.getOutputStream()是不需要此種解決方案的;因爲這句話的意思是爲了將response對象中的數據以UTF-8解碼後發向瀏覽器;

 

解決方案流程圖:

 

 

問題2

問題代碼如下:

  1. protected void doGet(HttpServletRequest request, HttpServletResponse response) throws ServletException, IOException {  
  2.         PrintWriter out = response.getWriter();  
  3.         String data = "博客";  
  4.         out.println(data);    
  5.     }  
protected void doGet(HttpServletRequest request, HttpServletResponse response) throws ServletException, IOException {
		PrintWriter out = response.getWriter();
		String data = "博客";
		out.println(data);	
	}


瀏覽器輸出: ??

原因:"博客"首先被封裝在response對象中,因爲IE和WEB服務器之間不能傳輸文本,然後就通過ISO-8859-1進行編碼,但是ISO-8859-1中沒有“博客”的編碼,因此輸出“??”表示沒有編碼;

 

錯誤代碼流程圖:

 

 

而解決方案是:response.setCharacterEncoding("GB2312"); 設置response使用的碼錶

 

解決方案流程圖:

 

 

補充:通過<meta>標籤模擬response頭;

<meta http-equiv="content-type" content="text/html"/> 等價於 response.setContentType("text/html");

 

四、request亂碼問題

 

request請求分爲post和get,對於不同的請求方式有不同的解決亂碼的方案;

 

1.post請求亂碼

 

錯誤原因:

 

解決方案:

 

2.get請求亂碼

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章