字符編碼雜記

1:UNICODE編碼有自己的網站Unicode.org


2:UTF-16的大尾序和小尾序儲存形式都在用。一般來說,

以Macintosh製作或儲存的文字使用大尾序格式,

以Microsoft或Linux製作或儲存的文字使用小尾序格式。


3:UTF-16就是多了4字節的代理項對的UCS-2(UCS-2嚴格支持2字節)

主要是歷史原因, 微軟之前用UCS-2標識的字符不夠用,又在UCS-2的基礎上自己瞎搞了個4字節的代理項對


4:UTF-32 ,UTF8映照關係  如果是le就從右向左填充x

UTF-32                                    UTF8
        0x00000000 - 0x0000007F          0xxxxxxx 
        0x00000080 - 0x000007FF          110xxxxx 10xxxxxx 
        0x00000800 - 0x0000FFFF          1110xxxx 10xxxxxx 10xxxxxx 
        0x00010000 - 0x001FFFFF          11110xxx 10xxxxxx 10xxxxxx 10xxxxxx 
        0x00200000 - 0x03FFFFFF          111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 
        0x04000000 - 0x7FFFFFFF          1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 


相關資料:

https://baike.baidu.com/item/UTF-16/9032026?fr=aladdin&fromid=8390363&fromtitle=UTF16

https://blog.csdn.net/dengyunze/article/details/160958

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章