unicode utf8 轉換

原創

2018-09-03 01:51

UTF-8是UNICODE的一種變長度的編碼表達方式（一般UNICODE爲雙字節[指UCS2]），UTF-8就是以8位爲單元對UCS進行編碼，而UTF-8不使用大尾序和小尾序的形式，每個使用UTF-8儲存的字符，除了第一個字節外，其餘字節的頭兩個位元都是以"10"開始，使文字處理器能夠較快地找出每個字符的開始位置。

爲了與以前的ASCII碼相容（ASCII爲一個字節），因此 UTF-8 選擇了使用可變長度字節來儲存 Unicode,具體轉換關係如下表：

UCS-4（UNICODE）編碼	UTF-8字節流
U-00000000 – U-0000007F	0xxxxxxx
U-00000080 – U-000007FF	110xxxxx 10xxxxxx
U-00000800 – U-0000FFFF	1110xxxx 10xxxxxx 10xxxxxx
U-00010000 – U-001FFFFF	11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
U-00200000 – U-03FFFFFF	111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
U-04000000 – U-7FFFFFFF	1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

（表3-2 Unicode和UTF-8之間的轉換關係表）

在ASCII碼的範圍，用一個字節表示，超出ASCII碼的範圍就用字節表示，這就形成了我們上面看到的UTF-8的表示方法，這?的好處是當UNICODE文件中只有ASCII碼時，儲存的文件都爲一個字節，所以就是普通的ASCII文件無異，讀取的時候也是如此，所以能與以前的ASCII文件相容。

大於ASCII碼的，就會由上面的第一字節的前幾位表示該unicode字符的長度，比如110xxxxxx前三位的二進制表示告訴我們這是個 2BYTE的UNICODE字符；1110xxxx是個三位的UNICODE字符，依此類推；xxx 的位置由字符編碼數的二進制表示的位填入。越靠右的 x 具有越少的特殊意義。只用最短的那個足夠表達一個字符編碼數的多字節串。注意在多字節串中，第一個字節的開頭"1"的數目就是整個串中字節的數目。

ASCII字母繼續使用1字節儲存，重音文字、希臘字母或西裏爾字母等使用2字節來儲存，而常用的漢字就要使用3字節。輔助平面字符則使用4字節。

在UTF-8文件的開首，很多時都放置一個U+FEFF字符（UTF-8以EF,BB,BF代表），以顯示這個文字檔案是以UTF-8編碼。

4 UNICODE與UTF-8的轉換

4.1 UNICODE轉換爲UTF-8

UTF-8的特點是對不同範圍的字符使用不同長度的編碼。對於0x00-0x7F之間的字符，UTF-8編碼與ASCII編碼完全相同。UTF-8編碼的最大長度是4個字節。從表3-2可以看出，4字節模板有21個x，即可以容納21位二進制數字。Unicode的最大碼位0x10FFFF也只有21位。

如：“漢”字的Unicode編碼是0x6C49。0x6C49在0x0800-0xFFFF之間，使用用3字節模板了：1110xxxx 10xxxxxx 10xxxxxx。將0x6C49寫成二進制是：0110 1100 0100 1001，用這個比特流依次代替模板中的x，得到：11100110 10110001 10001001，即E6 B1 89。

又如：Unicode編碼0x20C30在0x010000-0x10FFFF之間，使用4字節模板了：11110xxx 10xxxxxx 10xxxxxx 10xxxxxx。將0x20C30寫成21位二進制數字（不足21位就在前面補0）：0 0010 0000 1100 0011 0000，用這個比特流依次代替模板中的x，得到：11110000 10100000 10110000 10110000，即F0 A0 B0 B0。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

unicode utf8 轉換

使用c#強大的表達式樹實現對象的深克隆之解決循環引用的問題

痞子衡嵌入式：恩智浦i.MX RT1xxx系列MCU啓動那些事（12.A）- uSDHC eMMC啓動時間(RT1170)

GPT-4o 引領人機交互新風向，向量數據庫賽道沸騰了

企業大模型如何成爲自己數據的“百科全書”？

本地SSL證書過期輸入命令在IIS自動生成

基於Ubuntu-22.04安裝K8s-v1.28.2實驗（二）使用kube-vip實現集羣VIP訪問

.NET週刊【5月第2期 2024-05-12】

阿里巴巴面試題總結

linux 系統調用fork

partition實現

tcp 基本工作

求1+2+3+...+n，要求不能使用乘除法，for,while，if,else,switch,case等關鍵字以及條件判斷語句

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結