Java中字符編碼和字符串所佔字節數 .

Java中字符串所佔的字節數和字符編碼密切相關。

Java編碼實際上可以涉及這幾個方面的知識:IDE的編碼,操作系統默認編碼,Java字符編碼。

例如:我們使用eclipse編寫Java程序時,可以在工程屬性中設置Java程序的編碼,若不設置,則程序的編碼默認是操作系統的編碼,這裏設置的編碼即爲代碼文件的編碼;或者我們使用vim編寫Java程序時,可以設置系統的環境變量LANG,例如 zh_CN.UTF-8,zh_CN.GB18030等,此時,代碼文件的編碼就是LANG所指定的編碼。這就是IDE的編碼,IDE的編碼很重要,例如一個Java代碼文件是UTF-8編碼的,而你的IDE是GB18030編碼,則顯示就會出現亂碼了。

Java中字符的編碼是指Java中的字符串所採取的編碼,例如有下面一段程序,用於計算字符串所佔字節數,運行在Windows 7上:

 

[java] view plaincopy

  1. public class Charset {  
  2.   
  3.         public static void main(String[] args) {  
  4.                 // TODO Auto-generated method stub   
  5.                 String msg = "中國abc";  
  6.                 System.out.println(msg);  
  7.                 int len = msg.getBytes().length;//按操作系統默認編碼來編碼   
  8.                 System.out.println(len);  
  9.                 try{  
  10.                         len = msg.getBytes("GB2312").length;//輸出7   
  11.                         System.out.println("GB2312: "+len);  
  12.                         len = msg.getBytes("GBK").length;//輸出7   
  13.                         System.out.println("GBK: "+len);  
  14.                         len = msg.getBytes("GB18030").length;//輸出7, 2*2+3,一個漢字佔2字節,一個英文字母一個字節   
  15.                         System.out.println("GB18030: "+len);  
  16.                         len = msg.getBytes("UTF-8").length;//輸出9, 2*3+3=9,一個漢字佔3字節,一個英文字母一個字節.   
  17.                         System.out.println("UTF-8: "+len);  
  18.                         len = msg.getBytes("UTF-16").length;//輸出12   
  19.                         System.out.println("UTF-16: "+len);  
  20.                         len = msg.getBytes("UTF-32").length;//輸出20   
  21.                         System.out.println("UTF-32: "+len);  
  22.                         len = msg.getBytes("Unicode").length;//輸出12   
  23.                         System.out.println("Unicode: "+len);  
  24.                 } catch ( java.io.UnsupportedEncodingException e)  
  25.                 {  
  26.                         System.out.println(e.getMessage().toString());  
  27.                 }  
  28.         }  
  29.   
  30. }  

[java] view plain copy

  1. public class Charset {  
  2.   
  3.         public static void main(String[] args) {  
  4.                 // TODO Auto-generated method stub  
  5.                 String msg = "中國abc";  
  6.                 System.out.println(msg);  
  7.                 int len = msg.getBytes().length;//按操作系統默認編碼來編碼  
  8.                 System.out.println(len);  
  9.                 try{  
  10.                         len = msg.getBytes("GB2312").length;//輸出7  
  11.                         System.out.println("GB2312: "+len);  
  12.                         len = msg.getBytes("GBK").length;//輸出7  
  13.                         System.out.println("GBK: "+len);  
  14.                         len = msg.getBytes("GB18030").length;//輸出7, 2*2+3,一個漢字佔2字節,一個英文字母一個字節  
  15.                         System.out.println("GB18030: "+len);  
  16.                         len = msg.getBytes("UTF-8").length;//輸出9, 2*3+3=9,一個漢字佔3字節,一個英文字母一個字節.  
  17.                         System.out.println("UTF-8: "+len);  
  18.                         len = msg.getBytes("UTF-16").length;//輸出12  
  19.                         System.out.println("UTF-16: "+len);  
  20.                         len = msg.getBytes("UTF-32").length;//輸出20  
  21.                         System.out.println("UTF-32: "+len);  
  22.                         len = msg.getBytes("Unicode").length;//輸出12  
  23.                         System.out.println("Unicode: "+len);  
  24.                 } catch ( java.io.UnsupportedEncodingException e)  
  25.                 {  
  26.                         System.out.println(e.getMessage().toString());  
  27.                 }  
  28.         }  
  29.   
  30. }  

 

程序輸出是:

中國abc
7
GB2312: 7
GBK: 7
GB18030: 7
UTF-8: 9
UTF-16: 12
UTF-32: 20
Unicode: 12

分析:
len = msg.getBytes().length 的值是7,這是因爲Windows 7操作系統字符編碼是GBK(GB2312或GBK或GB18030),Java在運行程序時以操作系統默認編碼來編碼字符,所以字符所佔字節數是7。

若該段程序放在,

 

[plain] view plaincopy

  1. [zhankunlin@IctHTC javatest]$ export LANG=zh_CN.GB18030  
  2. [zhankunlin@IctHTC javatest]$ vim Charset.java  (編寫Java代碼文件時,使用的編碼是zh_CN.GB18030,即代碼文件中的編碼是 GB18030)  
  3. [zhankunlin@IctHTC javatest]$ javac Charset.java   
  4. [zhankunlin@IctHTC javatest]$ java Charset  (LANG=zh_CN.GB18030,即系統默認編碼是GB18030)  
  5. 中國abc  
  6. 7 (系統默認編碼是GB18030,所以佔7個字節)     
  7. GB2312: 7  
  8. GBK: 7  
  9. GB18030: 7  
  10. UTF-8: 9  
  11. UTF-16: 12  
  12. UTF-32: 20  
  13. Unicode: 12  
  14. [zhankunlin@IctHTC javatest]$ export LANG=zh_CN.UTF-8 (更改系統編碼爲 UTF-8 )  
  15. [zhankunlin@IctHTC javatest]$ java Charset  
  16. 涓..abc  (由於XShell終端編碼沒有設置成 UTF-8,所以打印出現亂碼)  
  17. 9 (操作系統編碼是UTF-8,所以佔9個字節)  
  18. GB2312: 7  
  19. GBK: 7  
  20. GB18030: 7  
  21. UTF-8: 9  
  22. UTF-16: 12  
  23. UTF-32: 20  
  24. Unicode: 12  

[plain] view plain copy

  1. [zhankunlin@IctHTC javatest]$ export LANG=zh_CN.GB18030  
  2. [zhankunlin@IctHTC javatest]$ vim Charset.java  (編寫Java代碼文件時,使用的編碼是zh_CN.GB18030,即代碼文件中的編碼是 GB18030)  
  3. [zhankunlin@IctHTC javatest]$ javac Charset.java   
  4. [zhankunlin@IctHTC javatest]$ java Charset  (LANG=zh_CN.GB18030,即系統默認編碼是GB18030)  
  5. 中國abc  
  6. 7 (系統默認編碼是GB18030,所以佔7個字節)     
  7. GB2312: 7  
  8. GBK: 7  
  9. GB18030: 7  
  10. UTF-8: 9  
  11. UTF-16: 12  
  12. UTF-32: 20  
  13. Unicode: 12  
  14. [zhankunlin@IctHTC javatest]$ export LANG=zh_CN.UTF-8 (更改系統編碼爲 UTF-8 )  
  15. [zhankunlin@IctHTC javatest]$ java Charset  
  16. 涓..abc  (由於XShell終端編碼沒有設置成 UTF-8,所以打印出現亂碼)  
  17. 9 (操作系統編碼是UTF-8,所以佔9個字節)  
  18. GB2312: 7  
  19. GBK: 7  
  20. GB18030: 7  
  21. UTF-8: 9  
  22. UTF-16: 12  
  23. UTF-32: 20  
  24. Unicode: 12  

[plain] view plaincopy

  1. {設置XShell終端編碼爲 utf-8 }  

[plain] view plain copy

  1. {設置XShell終端編碼爲 utf-8 }  

[plain] view plaincopy

  1. [zhankunlin@IctHTC javatest]$ java Charset  
  2. 中國abc  (打印正常)  
  3. 9  
  4. GB2312: 7  
  5. GBK: 7  
  6. GB18030: 7  
  7. UTF-8: 9  
  8. UTF-16: 12  
  9. UTF-32: 20  
  10. Unicode: 12  
  11. [zhankunlin@IctHTC javatest]$ vim Charset.java   

[plain] view plain copy

  1. [zhankunlin@IctHTC javatest]$ java Charset  
  2. 中國abc  (打印正常)  
  3. 9  
  4. GB2312: 7  
  5. GBK: 7  
  6. GB18030: 7  
  7. UTF-8: 9  
  8. UTF-16: 12  
  9. UTF-32: 20  
  10. Unicode: 12  
  11. [zhankunlin@IctHTC javatest]$ vim Charset.java   

[plain] view plaincopy

  1. [zhankunlin@IctHTC javatest]$ javac Charset.java  (程序代碼文件編碼是 GB18030,而編譯時系統編碼是 UTF-8,編譯器編譯時若沒有任何指定就會以操作系統編碼的方式去讀取代碼文件進行編譯,所以出現警告)  
  2. Charset.java:6: 璀?.錛.??.UTF8 ?.??..灝..絎  
  3.                 String msg = "錕叫癸拷abc";  
  4.                               ^  
  5. Charset.java:6: 璀?.錛.??.UTF8 ?.??..灝..絎  
  6.                 String msg = "錕叫癸拷abc";  

[plain] view plain copy

  1. [zhankunlin@IctHTC javatest]$ javac Charset.java  (程序代碼文件編碼是 GB18030,而編譯時系統編碼是 UTF-8,編譯器編譯時若沒有任何指定就會以操作系統編碼的方式去讀取代碼文件進行編譯,所以出現警告)  
  2. Charset.java:6: 璀?.錛.??.UTF8 ?.??..灝..絎  
  3.                 String msg = "錕叫癸拷abc";  
  4.                               ^  
  5. Charset.java:6: 璀?.錛.??.UTF8 ?.??..灝..絎  
  6.                 String msg = "錕叫癸拷abc";  

[plain] view plaincopy

  1. [zhankunlin@IctHTC javatest]$ javac -encoding gb18030 Charset.java  (使用 -encoding 選項指定程序文件的編碼格式,則編譯不會出問題)  
  2. [zhankunlin@IctHTC javatest]$ java Charset {打印正常,因爲XShell終端編碼已經設置爲了 utf-8 }}  
  3. 中國abc  
  4. 9  
  5. GB2312: 7  
  6. GBK: 7  
  7. GB18030: 7  
  8. UTF-8: 9  
  9. UTF-16: 12  
  10. UTF-32: 20  
  11. Unicode: 12  

[plain] view plain copy

  1. [zhankunlin@IctHTC javatest]$ javac -encoding gb18030 Charset.java  (使用 -encoding 選項指定程序文件的編碼格式,則編譯不會出問題)  
  2. [zhankunlin@IctHTC javatest]$ java Charset {打印正常,因爲XShell終端編碼已經設置爲了 utf-8 }}  
  3. 中國abc  
  4. 9  
  5. GB2312: 7  
  6. GBK: 7  
  7. GB18030: 7  
  8. UTF-8: 9  
  9. UTF-16: 12  
  10. UTF-32: 20  
  11. Unicode: 12  

[plain] view plaincopy

  1. <pre>  

[plain] view plain copy

  1. <pre>  

[plain] view plaincopy

  1. </pre><pre name="code" class="plain">  

[plain] view plain copy

  1. </pre><pre name="code" class="plain">  

[plain] view plaincopy

  1. </pre><pre name="code" class="plain">  

[plain] view plain copy

  1. </pre><pre name="code" class="plain">  

[plain] view plaincopy

  1. </pre><pre name="code" class="plain"><pre>  
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章