开发中同一个字拥有不同编码的汇总

借用知乎上的回答:

属于GBK的遗留问题,当年定义GBK的时候同期的Unicode还没收“龙天”所以GBK给制定了个用户自定义区的码e863,后来Unicode收了该字,就在正式区分了码4dae。有些输入法按GBK规范做就是输出e863,另一些按Unicode做,输出就是4dae,理论上,应该以4dae为准,毕竟现在是Unicode的天下了
链接:https://www.zhihu.com/question/29273111/answer/100904852

 

以下转载自:http://code.web.idv.hk/index.php

 

GB 18030 编码表

 

因 GB 18030 的设计是要把整个 Unicode 的字码作对应,所以 GB 18030 的码表,也与 Unicode 一样庞大。

GB 18030 至今共有两个版本:GB 18030-2000 和 GB 18030-2005。2005年版为现行版本。两者分别见下。

在2018年7月,全国信息技术标准化技术委员会拟制作新的 GB 18030 版本,相信最终本将称为 GB 18030-2019,并计划在2019年下半年发布。新版本目标是把所有《通用规范汉字表》的汉字,和直至 CJK-F 区的所有汉字都收录在内(CJK 主区剩余的 66 (74 减去已收录的 U+9FB4–U+9FBB) 字、CJK-C 区 的 4149 字、CJK-D 区的 222 字、CJK-E 区的 5762字、CJK-F 区的 7473 字,共 87916 字)。

不过,此拟修订版本,不明所意地打算把位于「相容表意文字区」中但实则独一的汉字:U+FA0E(﨎)、U+FA0F(﨏)、U+FA11(﨑)、U+FA13(﨓)、U+FA14(﨔)、U+FA1F(﨟)、U+FA21(﨡)、U+FA23(﨣)、U+FA24(﨤)、U+FA27(﨧)、U+FA28(﨨)、U+FA29(﨩),和另外 9 个兼容汉字(郎、凉、秊、裏、隣、兀、嗀、礼、蘒)删除。

请按下拉选框,选择你想查询的字码。字码第一栏以 Unicode 排序,第二栏为 GB 18030 内码。有需要时辅以第三栏说明。

 请选择  U+0000–U+0FFF U+1000–U+1FFF U+2000–U+2FFF U+3000–U+3FFF U+4000–U+4FFF U+5000–U+5FFF U+6000–U+6FFF U+7000–U+7FFF U+8000–U+8FFF U+9000–U+9FFF U+A000–U+AFFF U+B000–U+BFFF U+C000–U+CFFF U+D000–U+D7FF U+E000–U+F8FF(私人使用区) U+F900–U+FFFF(兼容区)   多文种补充平面 (SMP) 表意文字补充平面 (SIP) 表意文字第三平面(TIP,未正式使用) 第4辅助平面(尚未使用) 第5辅助平面(尚未使用) 第6辅助平面(尚未使用) 第7辅助平面(尚未使用) 第8辅助平面(尚未使用) 第9辅助平面(尚未使用) 第10辅助平面(尚未使用) 第11辅助平面(尚未使用) 第12辅助平面(尚未使用) 第13辅助平面(尚未使用) 特别用途补充平面 (SSP) 第15辅助平面(私人使用区A区) 第16辅助平面(私人使用区B区)  


GBK与GB 2312的分别

  • GB 2312 2字节码位,第一个字节的值从 0xA1–FE(0xAA–AF 和 0xF8–FE 实际未使用),第二个字节的值从 0xA1–FE。
    GBK 2字节码位,第一个字节的值从 0x81–FE,第二个字节的值从 0x40–7E 和 0x80–FE。
  • GB 2312 只有 6,763 个汉字。GBK 收录所有中日韩统一表意文字基本区汉字。
    0x8140–A0FE,加入 6,080 个汉字;0xAA40–FD9B(不包括原有 GB 2312 范围),加入 8,059 个汉字;0xFD9C–FE4F,加入 21 个兼容汉字。
  • GB 2312 只有 682 个符号。在后来的字形标准如 GB 5007.1 和 GB 6345.1 等,在 0xA8BB–A8C0 补上六个拼音符号:ɑ ḿ ń ň ǹ ɡ。GBK 承继了这些符号。
  • GBK 加入 10 个小写罗马数字 ⅰ–ⅹ (0xA2A1–A2AA)。
  • GBK 加入 29 个竖排标点符号 (0xA6D9–A6F5)。来源自 GB 12345 标准。
  • GBK 加入台湾电脑系统用的符号 (0xA840–A895, 0xA940–A988,不包含 A958, A95B, A95D–A95F)。
    但实际上,台湾电脑系统并没有 0xA844(―), 0xA891(☉), 0xA95C(‐) 。
    Big5 码的 0xA145(‧), 0xA15A(╴), 0xA1C2(¯ 或 ‾), 0xA1C5(ˍ) 亦没有在 GBK 出现。
  • 加入表意文字描述符 (0xA989–A995) 和汉字数字零 〇 (0xA996)
  • 加入当时 Unicode 尚未收录的 52 个《简化字总表》汉字、28 个《康熙字典》和《辞海》汉字部件 (0xFE50–FEA0)。
  • 注:GB 5007.1 和 GB 6345.1 等标准,在第 10 区(内码 0xAAA1–AAFE)补充 94 个半形 ASCII 字符、
    在第 11 区(内码 0xABA1–ABC0)补充汉语拼音 ü 的半形字符、a, e, i, o, u, ü 阴阳上去四声的半形字符、和 ê, ɑ, ḿ, ń, ň, ǹ, ɡ 的半形字符共 32 个。
    GBK 和 GB 18030 标准均没有遵从。

GBK与微软CP936的分别

  • 微软 CP936 在 0x80 加入欧元符号 €(1995年 GBK 推出时,欧元尚未诞生)
  • 微软 CP936 没有 0xA6D9–A6DF, A6EC–A6ED, A6F3, A8BC, A8BF, A989–A995, FE50–FEA0(GB 13000.1 / Unicode 1.0 没有那些字符)。

GB 18030-2000与GBK的分别

  • GB 18030-2000 增加了4字节的码位,第一个字节的值从 0x81–FE,第二个字节的值从 0x30–39,第三个字节从 0x81–FE,第四个字节从 0x30–39。并把 Unicode 的所有可能编码,都对应到其中一个 GB 18030 码位。
  • GB 18030-2000 收录所有中日韩统一表意文字扩展A区汉字。
  • GB 18030-2000 把欧元符号收录在 0xA2E3。
    很不幸,在微软简体中文系统,0x80 依旧是欧元符号;0xA2E3 则另有一个欧元符号,对应至私人造字码 U+E76C。
  • 因为 Unicode ≥3.0 已收录以下字符,在 GB 18030-2000 的官方文件附录E 和 GB 18030-2005 的官方文件附录E-表E.1,列出了以下字符在下一版 GB 13000(注:相当于 ISO/IEC 10646:2003)的位置。事实上,GB 18030-2000 和 -2005 已修改了它们所对应的 Unicode 对应。
GB码位   字符   GBK 对应的造字区   GB 18030 对应的Unicode  
A8BF ǹ U+E7C8 U+01F9
A989 U+E7E7 U+303E
A98A U+E7E8 U+2FF0
A98B U+E7E9 U+2FF1
A98C U+E7EA U+2FF2
A98D U+E7EB U+2FF3
A98E U+E7EC U+2FF4
A98F U+E7ED U+2FF5
A990 U+E7EE U+2FF6
A991 U+E7EF U+2FF7
A992 U+E7F0 U+2FF8
A993 U+E7F1 U+2FF9
A994 U+E7F2 U+2FFA
A995 U+E7F3 U+2FFB
FE50 U+E815 U+2E81
FE54 U+E819 U+2E84
FE55 U+E81A U+3473
FE56 U+E81B U+3447
FE57 U+E81C U+2E88
FE58 U+E81D U+2E8B
FE5A U+E81F U+359E
FE5B U+E820 U+361A
FE5C U+E821 U+360E
FE5D U+E822 U+2E8C
FE5E U+E823 U+2E97
FE5F U+E824 U+396E
FE60 U+E825 U+3918
FE62 U+E827 U+39CF
FE63 U+E828 U+39DF
FE64 U+E829 U+3A73
FE65 U+E82A U+39D0
FE68 U+E82D U+3B4E
FE69 U+E82E U+3C6E
FE6A U+E82F U+3CE0
FE6B U+E830 U+2EA7
FE6E U+E833 U+2EAA
FE6F U+E834 U+4056
FE70 U+E835 U+415F
FE71 U+E836 U+2EAE
FE72 U+E837 U+4337
FE73 U+E838 U+2EB3
FE74 U+E839 U+2EB6
FE75 U+E83A U+2EB7
FE77 U+E83C U+43B1
FE78 U+E83D U+43AC
FE79 U+E83E U+2EBB
FE7A U+E83F U+43DD
FE7B U+E840 U+44D6
FE7C U+E841 U+4661
FE7D U+E842 U+464C
FE80 U+E844 U+4723
FE81 U+E845 U+4729
FE82 U+E846 U+477C
FE83 U+E847 U+478D
FE84 U+E848 U+2ECA
FE85 U+E849 U+4947
FE86 U+E84A U+497A
FE87 U+E84B U+497D
FE88 U+E84C U+4982
FE89 U+E84D U+4983
FE8A U+E84E U+4985
FE8B U+E84F U+4986
FE8C U+E850 U+499F
FE8D U+E851 U+499B
FE8E U+E852 U+49B7
FE8F U+E853 U+49B6
FE92 U+E856 U+4CA3
FE93 U+E857 U+4C9F
FE94 U+E858 U+4CA0
FE95 U+E859 U+4CA1
FE96 U+E85A U+4C77
FE97 U+E85B U+4CA2
FE98 U+E85C U+4D13
FE99 U+E85D U+4D14
FE9A U+E85E U+4D15
FE9B U+E85F U+4D16
FE9C U+E860 U+4D17
FE9D U+E861 U+4D18
FE9E 𬸯 U+E862 U+4D19
FE9F U+E863 U+4DAE

 

GB 18030-2005与GB 18030-2000的分别

  • 夹附中日韩统一表意文字扩展B区汉字、朝鲜文、蒙古文(包括满文、托忒文、锡伯文、阿礼嘎礼文)、德宏傣文、藏文、维吾尔文/哈萨克文/柯尔克兹文,和彝文的字形表。 韩文包含 3,376 个韩字加 69 个字母加 51 个兼容字母、 蒙古文包含 149 字、傣文包含 35 字、藏文包含 193 字、 维吾尔文包含 49 字加 153 个字母表达形式、 彝文包含 1,215 字(不包含 U+A4A2, U+A4A3, U+A4B4, U+A4C1, U+A4C5)。
  • GB 18030-2000 没有把 ḿ 对应至 Unicode。在 GB 18030-2005 终于获订正。见官方文件附录E-表E.2。
GB码位   字符   GB 18030-2000 对应的造字区   GB 18030-2005 对应的Unicode  
A8BC ḿ U+E7C7 U+1E3F

 

GB 18030 仍未订正对应的字符

  • 在 GB 18030-2000 推出时,因未有中日韩统一表意文字扩展B区,以下字符被对应到造字区。 而在 GB 18030-2005 推出时,尽管 Unicode 已收录了扩展B区, 但在 GB 18030-2005 标准中,以下字符仍然对应到造字区,未有作出修改。 见 WG2 N2773 文件。 结果,GB 18030-2005 重复收录了以下 6 字两次。
GB码位   字符   GB 18030 对应的造字区   Unicode ≥3.1   因此而重复的GB码位  
FE51 𠂇 U+E816 U+20087 95329031
FE52 𠂉 U+E817 U+20089 95329033
FE53 𠃌 U+E818 U+200CC 95329730
FE6C 𡗗 U+E831 U+215D7 9536B937
FE76 𢦏 U+E83B U+2298F 9630BA35
FE91 𤇾 U+E855 U+241FE 9635B630
  • 以下字符在 GB 18030-2000 时已有,而当时 Unicode 仍未有以下字符。 尽管 Unicode 在 4.1 版本,已经把以下字符悉数加入,但在 GB 18030-2005 标准中,以下字符仍然对应到造字区。 见 WG2 N2773 文件
GB码位   字符   GB 18030 对应的造字区   Unicode ≥4.1  
A6D9 U+E78D U+FE10
A6DA U+E78E U+FE12
A6DB U+E78F U+FE11
A6DC U+E790 U+FE13
A6DD U+E791 U+FE14
A6DE U+E792 U+FE15
A6DF U+E793 U+FE16
A6EC U+E794 U+FE17
A6ED U+E795 U+FE18
A6F3 U+E796 U+FE19
FE59 U+E81E U+9FB4
FE61 U+E826 U+9FB5
FE66 U+E82B U+9FB6
FE67 U+E82C U+9FB7
FE6D U+E832 U+9FB8
FE7E U+E843 U+9FB9
FE90 U+E854 U+9FBA
FEA0 U+E864 U+9FBB

 

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章