1:UNICODE編碼有自己的網站Unicode.org
2:UTF-16的大尾序和小尾序儲存形式都在用。一般來說,
以Macintosh製作或儲存的文字使用大尾序格式,
以Microsoft或Linux製作或儲存的文字使用小尾序格式。
3:UTF-16就是多了4字節的代理項對的UCS-2(UCS-2嚴格支持2字節)
主要是歷史原因, 微軟之前用UCS-2標識的字符不夠用,又在UCS-2的基礎上自己瞎搞了個4字節的代理項對
4:UTF-32 ,UTF8映照關係 如果是le就從右向左填充x
UTF-32 UTF8
0x00000000 - 0x0000007F 0xxxxxxx
0x00000080 - 0x000007FF 110xxxxx 10xxxxxx
0x00000800 - 0x0000FFFF 1110xxxx 10xxxxxx 10xxxxxx
0x00010000 - 0x001FFFFF 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
0x00200000 - 0x03FFFFFF 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
0x04000000 - 0x7FFFFFFF 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
相關資料:
https://baike.baidu.com/item/UTF-16/9032026?fr=aladdin&fromid=8390363&fromtitle=UTF16
https://blog.csdn.net/dengyunze/article/details/160958