博學,切問,近思--詹子知 (http://blog.csdn.net/zhiqiangzhan)
UTF-8(8 位元 Universal Character Set/Unicode Transformation Format)是一種針對Unicode的可變長度字元編碼。
UTF-8 是一種傳輸編碼,他和定長的Unicode編碼有如下關係。
UCS (Universal Character Set)
UTF (UCS Transformation Format)
UCS-2字符編碼(十六進制數) | UTF-8字節流(二進制數) |
0000-007F | 0xxxxxxx |
0080-07FF | 110xxxxx 10xxxxxx |
0800-FFFF | 1110xxxx 10xxxxxx 10xxxxxx |
因爲網絡上大量傳輸的數據都是ASCII字符,比如HTML標記,XML標記等等,所以UTF-8有很高的傳輸效率,而且又可以兼顧不同地區的語言編碼。
下面的代碼描述Unicode和UTF-8之間的轉換。