開發中同一個字擁有不同編碼的彙總

借用知乎上的回答:

屬於GBK的遺留問題,當年定義GBK的時候同期的Unicode還沒收“龍天”所以GBK給制定了個用戶自定義區的碼e863,後來Unicode收了該字,就在正式區分了碼4dae。有些輸入法按GBK規範做就是輸出e863,另一些按Unicode做,輸出就是4dae,理論上,應該以4dae爲準,畢竟現在是Unicode的天下了
鏈接:https://www.zhihu.com/question/29273111/answer/100904852

 

以下轉載自:http://code.web.idv.hk/index.php

 

GB 18030 編碼表

 

因 GB 18030 的設計是要把整個 Unicode 的字碼作對應,所以 GB 18030 的碼表,也與 Unicode 一樣龐大。

GB 18030 至今共有兩個版本:GB 18030-2000 和 GB 18030-2005。2005年版為現行版本。兩者分別見下。

在2018年7月,全國信息技術標準化技術委員會擬製作新的 GB 18030 版本,相信最終本將稱為 GB 18030-2019,並計劃在2019年下半年發佈。新版本目標是把所有《通用規範漢字表》的漢字,和直至 CJK-F 區的所有漢字都收錄在內(CJK 主區剩餘的 66 (74 減去已收錄的 U+9FB4–U+9FBB) 字、CJK-C 區 的 4149 字、CJK-D 區的 222 字、CJK-E 區的 5762字、CJK-F 區的 7473 字,共 87916 字)。

不過,此擬修訂版本,不明所意地打算把位於「相容表意文字區」中但實則獨一的漢字:U+FA0E(﨎)、U+FA0F(﨏)、U+FA11(﨑)、U+FA13(﨓)、U+FA14(﨔)、U+FA1F(﨟)、U+FA21(﨡)、U+FA23(﨣)、U+FA24(﨤)、U+FA27(﨧)、U+FA28(﨨)、U+FA29(﨩),和另外 9 個兼容漢字(郎、凉、秊、裏、隣、兀、嗀、礼、蘒)刪除。

請按下拉選框,選擇你想查詢的字碼。字碼第一欄以 Unicode 排序,第二欄為 GB 18030 內碼。有需要時輔以第三欄說明。

 請選擇  U+0000–U+0FFF U+1000–U+1FFF U+2000–U+2FFF U+3000–U+3FFF U+4000–U+4FFF U+5000–U+5FFF U+6000–U+6FFF U+7000–U+7FFF U+8000–U+8FFF U+9000–U+9FFF U+A000–U+AFFF U+B000–U+BFFF U+C000–U+CFFF U+D000–U+D7FF U+E000–U+F8FF(私人使用區) U+F900–U+FFFF(兼容區)   多文種補充平面 (SMP) 表意文字補充平面 (SIP) 表意文字第三平面(TIP,未正式使用) 第4輔助平面(尚未使用) 第5輔助平面(尚未使用) 第6輔助平面(尚未使用) 第7輔助平面(尚未使用) 第8輔助平面(尚未使用) 第9輔助平面(尚未使用) 第10輔助平面(尚未使用) 第11輔助平面(尚未使用) 第12輔助平面(尚未使用) 第13輔助平面(尚未使用) 特別用途補充平面 (SSP) 第15輔助平面(私人使用區A區) 第16輔助平面(私人使用區B區)  


GBK與GB 2312的分別

  • GB 2312 2字節碼位,第一個字節的值從 0xA1–FE(0xAA–AF 和 0xF8–FE 實際未使用),第二個字節的值從 0xA1–FE。
    GBK 2字節碼位,第一個字節的值從 0x81–FE,第二個字節的值從 0x40–7E 和 0x80–FE。
  • GB 2312 只有 6,763 個漢字。GBK 收錄所有中日韓統一表意文字基本區漢字。
    0x8140–A0FE,加入 6,080 個漢字;0xAA40–FD9B(不包括原有 GB 2312 範圍),加入 8,059 個漢字;0xFD9C–FE4F,加入 21 個兼容漢字。
  • GB 2312 只有 682 個符號。在後來的字形標準如 GB 5007.1 和 GB 6345.1 等,在 0xA8BB–A8C0 補上六個拼音符號:ɑ ḿ ń ň ǹ ɡ。GBK 承繼了這些符號。
  • GBK 加入 10 個小寫羅馬數字 ⅰ–ⅹ (0xA2A1–A2AA)。
  • GBK 加入 29 個豎排標點符號 (0xA6D9–A6F5)。來源自 GB 12345 標準。
  • GBK 加入臺灣電腦系統用的符號 (0xA840–A895, 0xA940–A988,不包含 A958, A95B, A95D–A95F)。
    但實際上,臺灣電腦系統並沒有 0xA844(―), 0xA891(☉), 0xA95C(‐) 。
    Big5 碼的 0xA145(‧), 0xA15A(╴), 0xA1C2(¯ 或 ‾), 0xA1C5(ˍ) 亦沒有在 GBK 出現。
  • 加入表意文字描述符 (0xA989–A995) 和漢字數字零 〇 (0xA996)
  • 加入當時 Unicode 尚未收錄的 52 個《簡化字總表》漢字、28 個《康熙字典》和《辭海》漢字部件 (0xFE50–FEA0)。
  • 註:GB 5007.1 和 GB 6345.1 等標準,在第 10 區(內碼 0xAAA1–AAFE)補充 94 個半形 ASCII 字符、
    在第 11 區(內碼 0xABA1–ABC0)補充漢語拼音 ü 的半形字符、a, e, i, o, u, ü 陰陽上去四聲的半形字符、和 ê, ɑ, ḿ, ń, ň, ǹ, ɡ 的半形字符共 32 個。
    GBK 和 GB 18030 標準均沒有遵從。

GBK與微軟CP936的分別

  • 微軟 CP936 在 0x80 加入歐元符號 €(1995年 GBK 推出時,歐元尚未誕生)
  • 微軟 CP936 沒有 0xA6D9–A6DF, A6EC–A6ED, A6F3, A8BC, A8BF, A989–A995, FE50–FEA0(GB 13000.1 / Unicode 1.0 沒有那些字符)。

GB 18030-2000與GBK的分別

  • GB 18030-2000 增加了4字節的碼位,第一個字節的值從 0x81–FE,第二個字節的值從 0x30–39,第三個字節從 0x81–FE,第四個字節從 0x30–39。並把 Unicode 的所有可能編碼,都對應到其中一個 GB 18030 碼位。
  • GB 18030-2000 收錄所有中日韓統一表意文字擴展A區漢字。
  • GB 18030-2000 把歐元符號收錄在 0xA2E3。
    很不幸,在微軟簡體中文系統,0x80 依舊是歐元符號;0xA2E3 則另有一個歐元符號,對應至私人造字碼 U+E76C。
  • 因為 Unicode ≥3.0 已收錄以下字符,在 GB 18030-2000 的官方文件附錄E 和 GB 18030-2005 的官方文件附錄E-表E.1,列出了以下字符在下一版 GB 13000(註:相當於 ISO/IEC 10646:2003)的位置。事實上,GB 18030-2000 和 -2005 已修改了它們所對應的 Unicode 對應。
GB碼位   字符   GBK 對應的造字區   GB 18030 對應的Unicode  
A8BF ǹ U+E7C8 U+01F9
A989 U+E7E7 U+303E
A98A U+E7E8 U+2FF0
A98B U+E7E9 U+2FF1
A98C U+E7EA U+2FF2
A98D U+E7EB U+2FF3
A98E U+E7EC U+2FF4
A98F U+E7ED U+2FF5
A990 U+E7EE U+2FF6
A991 U+E7EF U+2FF7
A992 U+E7F0 U+2FF8
A993 U+E7F1 U+2FF9
A994 U+E7F2 U+2FFA
A995 U+E7F3 U+2FFB
FE50 U+E815 U+2E81
FE54 U+E819 U+2E84
FE55 U+E81A U+3473
FE56 U+E81B U+3447
FE57 U+E81C U+2E88
FE58 U+E81D U+2E8B
FE5A U+E81F U+359E
FE5B U+E820 U+361A
FE5C U+E821 U+360E
FE5D U+E822 U+2E8C
FE5E U+E823 U+2E97
FE5F U+E824 U+396E
FE60 U+E825 U+3918
FE62 U+E827 U+39CF
FE63 U+E828 U+39DF
FE64 U+E829 U+3A73
FE65 U+E82A U+39D0
FE68 U+E82D U+3B4E
FE69 U+E82E U+3C6E
FE6A U+E82F U+3CE0
FE6B U+E830 U+2EA7
FE6E U+E833 U+2EAA
FE6F U+E834 U+4056
FE70 U+E835 U+415F
FE71 U+E836 U+2EAE
FE72 U+E837 U+4337
FE73 U+E838 U+2EB3
FE74 U+E839 U+2EB6
FE75 U+E83A U+2EB7
FE77 U+E83C U+43B1
FE78 U+E83D U+43AC
FE79 U+E83E U+2EBB
FE7A U+E83F U+43DD
FE7B U+E840 U+44D6
FE7C U+E841 U+4661
FE7D U+E842 U+464C
FE80 U+E844 U+4723
FE81 U+E845 U+4729
FE82 U+E846 U+477C
FE83 U+E847 U+478D
FE84 U+E848 U+2ECA
FE85 U+E849 U+4947
FE86 U+E84A U+497A
FE87 U+E84B U+497D
FE88 U+E84C U+4982
FE89 U+E84D U+4983
FE8A U+E84E U+4985
FE8B U+E84F U+4986
FE8C U+E850 U+499F
FE8D U+E851 U+499B
FE8E U+E852 U+49B7
FE8F U+E853 U+49B6
FE92 U+E856 U+4CA3
FE93 U+E857 U+4C9F
FE94 U+E858 U+4CA0
FE95 U+E859 U+4CA1
FE96 U+E85A U+4C77
FE97 U+E85B U+4CA2
FE98 U+E85C U+4D13
FE99 U+E85D U+4D14
FE9A U+E85E U+4D15
FE9B U+E85F U+4D16
FE9C U+E860 U+4D17
FE9D U+E861 U+4D18
FE9E 鷿 U+E862 U+4D19
FE9F U+E863 U+4DAE

 

GB 18030-2005與GB 18030-2000的分別

  • 夾附中日韓統一表意文字擴展B區漢字、朝鮮文、蒙古文(包括滿文、託忒文、錫伯文、阿禮嘎禮文)、德宏傣文、藏文、維吾爾文/哈薩克文/柯爾克茲文,和彝文的字形表。 韓文包含 3,376 個韓字加 69 個字母加 51 個兼容字母、 蒙古文包含 149 字、傣文包含 35 字、藏文包含 193 字、 維吾爾文包含 49 字加 153 個字母表達形式、 彝文包含 1,215 字(不包含 U+A4A2, U+A4A3, U+A4B4, U+A4C1, U+A4C5)。
  • GB 18030-2000 沒有把 ḿ 對應至 Unicode。在 GB 18030-2005 終於獲訂正。見官方文件附錄E-表E.2。
GB碼位   字符   GB 18030-2000 對應的造字區   GB 18030-2005 對應的Unicode  
A8BC ḿ U+E7C7 U+1E3F

 

GB 18030 仍未訂正對應的字符

  • 在 GB 18030-2000 推出時,因未有中日韓統一表意文字擴展B區,以下字符被對應到造字區。 而在 GB 18030-2005 推出時,儘管 Unicode 已收錄了擴展B區, 但在 GB 18030-2005 標準中,以下字符仍然對應到造字區,未有作出修改。 見 WG2 N2773 文件。 結果,GB 18030-2005 重複收錄了以下 6 字兩次。
GB碼位   字符   GB 18030 對應的造字區   Unicode ≥3.1   因此而重複的GB碼位  
FE51 𠂇 U+E816 U+20087 95329031
FE52 𠂉 U+E817 U+20089 95329033
FE53 𠃌 U+E818 U+200CC 95329730
FE6C 𡗗 U+E831 U+215D7 9536B937
FE76 𢦏 U+E83B U+2298F 9630BA35
FE91 𤇾 U+E855 U+241FE 9635B630
  • 以下字符在 GB 18030-2000 時已有,而當時 Unicode 仍未有以下字符。 儘管 Unicode 在 4.1 版本,已經把以下字符悉數加入,但在 GB 18030-2005 標準中,以下字符仍然對應到造字區。 見 WG2 N2773 文件
GB碼位   字符   GB 18030 對應的造字區   Unicode ≥4.1  
A6D9 U+E78D U+FE10
A6DA U+E78E U+FE12
A6DB U+E78F U+FE11
A6DC U+E790 U+FE13
A6DD U+E791 U+FE14
A6DE U+E792 U+FE15
A6DF U+E793 U+FE16
A6EC U+E794 U+FE17
A6ED U+E795 U+FE18
A6F3 U+E796 U+FE19
FE59 U+E81E U+9FB4
FE61 U+E826 U+9FB5
FE66 U+E82B U+9FB6
FE67 U+E82C U+9FB7
FE6D U+E832 U+9FB8
FE7E U+E843 U+9FB9
FE90 U+E854 U+9FBA
FEA0 U+E864 U+9FBB

 

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章