字符编码杂记

1:UNICODE编码有自己的网站Unicode.org


2:UTF-16的大尾序和小尾序储存形式都在用。一般来说,

以Macintosh制作或储存的文字使用大尾序格式,

以Microsoft或Linux制作或储存的文字使用小尾序格式。


3:UTF-16就是多了4字节的代理项对的UCS-2(UCS-2严格支持2字节)

主要是历史原因, 微软之前用UCS-2标识的字符不够用,又在UCS-2的基础上自己瞎搞了个4字节的代理项对


4:UTF-32 ,UTF8映照关系  如果是le就从右向左填充x

UTF-32                                    UTF8
        0x00000000 - 0x0000007F          0xxxxxxx 
        0x00000080 - 0x000007FF          110xxxxx 10xxxxxx 
        0x00000800 - 0x0000FFFF          1110xxxx 10xxxxxx 10xxxxxx 
        0x00010000 - 0x001FFFFF          11110xxx 10xxxxxx 10xxxxxx 10xxxxxx 
        0x00200000 - 0x03FFFFFF          111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 
        0x04000000 - 0x7FFFFFFF          1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 


相关资料:

https://baike.baidu.com/item/UTF-16/9032026?fr=aladdin&fromid=8390363&fromtitle=UTF16

https://blog.csdn.net/dengyunze/article/details/160958

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章