借用知乎上的回答:
属于GBK的遗留问题,当年定义GBK的时候同期的Unicode还没收“龙天”所以GBK给制定了个用户自定义区的码e863,后来Unicode收了该字,就在正式区分了码4dae。有些输入法按GBK规范做就是输出e863,另一些按Unicode做,输出就是4dae,理论上,应该以4dae为准,毕竟现在是Unicode的天下了
链接:https://www.zhihu.com/question/29273111/answer/100904852
以下转载自:http://code.web.idv.hk/index.php
GB 18030 编码表
因 GB 18030 的设计是要把整个 Unicode 的字码作对应,所以 GB 18030 的码表,也与 Unicode 一样庞大。
GB 18030 至今共有两个版本:GB 18030-2000 和 GB 18030-2005。2005年版为现行版本。两者分别见下。
在2018年7月,全国信息技术标准化技术委员会拟制作新的 GB 18030 版本,相信最终本将称为 GB 18030-2019,并计划在2019年下半年发布。新版本目标是把所有《通用规范汉字表》的汉字,和直至 CJK-F 区的所有汉字都收录在内(CJK 主区剩余的 66 (74 减去已收录的 U+9FB4–U+9FBB) 字、CJK-C 区 的 4149 字、CJK-D 区的 222 字、CJK-E 区的 5762字、CJK-F 区的 7473 字,共 87916 字)。
不过,此拟修订版本,不明所意地打算把位于「相容表意文字区」中但实则独一的汉字:U+FA0E(﨎)、U+FA0F(﨏)、U+FA11(﨑)、U+FA13(﨓)、U+FA14(﨔)、U+FA1F(﨟)、U+FA21(﨡)、U+FA23(﨣)、U+FA24(﨤)、U+FA27(﨧)、U+FA28(﨨)、U+FA29(﨩),和另外 9 个兼容汉字(郎、凉、秊、裏、隣、兀、嗀、礼、蘒)删除。
请按下拉选框,选择你想查询的字码。字码第一栏以 Unicode 排序,第二栏为 GB 18030 内码。有需要时辅以第三栏说明。
请选择 U+0000–U+0FFF U+1000–U+1FFF U+2000–U+2FFF U+3000–U+3FFF U+4000–U+4FFF U+5000–U+5FFF U+6000–U+6FFF U+7000–U+7FFF U+8000–U+8FFF U+9000–U+9FFF U+A000–U+AFFF U+B000–U+BFFF U+C000–U+CFFF U+D000–U+D7FF U+E000–U+F8FF(私人使用区) U+F900–U+FFFF(兼容区) 多文种补充平面 (SMP) 表意文字补充平面 (SIP) 表意文字第三平面(TIP,未正式使用) 第4辅助平面(尚未使用) 第5辅助平面(尚未使用) 第6辅助平面(尚未使用) 第7辅助平面(尚未使用) 第8辅助平面(尚未使用) 第9辅助平面(尚未使用) 第10辅助平面(尚未使用) 第11辅助平面(尚未使用) 第12辅助平面(尚未使用) 第13辅助平面(尚未使用) 特别用途补充平面 (SSP) 第15辅助平面(私人使用区A区) 第16辅助平面(私人使用区B区)
GBK与GB 2312的分别
- GB 2312 2字节码位,第一个字节的值从 0xA1–FE(0xAA–AF 和 0xF8–FE 实际未使用),第二个字节的值从 0xA1–FE。
GBK 2字节码位,第一个字节的值从 0x81–FE,第二个字节的值从 0x40–7E 和 0x80–FE。 - GB 2312 只有 6,763 个汉字。GBK 收录所有中日韩统一表意文字基本区汉字。
0x8140–A0FE,加入 6,080 个汉字;0xAA40–FD9B(不包括原有 GB 2312 范围),加入 8,059 个汉字;0xFD9C–FE4F,加入 21 个兼容汉字。 - GB 2312 只有 682 个符号。在后来的字形标准如 GB 5007.1 和 GB 6345.1 等,在 0xA8BB–A8C0 补上六个拼音符号:ɑ ḿ ń ň ǹ ɡ。GBK 承继了这些符号。
- GBK 加入 10 个小写罗马数字 ⅰ–ⅹ (0xA2A1–A2AA)。
- GBK 加入 29 个竖排标点符号 (0xA6D9–A6F5)。来源自 GB 12345 标准。
- GBK 加入台湾电脑系统用的符号 (0xA840–A895, 0xA940–A988,不包含 A958, A95B, A95D–A95F)。
但实际上,台湾电脑系统并没有 0xA844(―), 0xA891(☉), 0xA95C(‐) 。
Big5 码的 0xA145(‧), 0xA15A(╴), 0xA1C2(¯ 或 ‾), 0xA1C5(ˍ) 亦没有在 GBK 出现。 - 加入表意文字描述符 (0xA989–A995) 和汉字数字零 〇 (0xA996)
- 加入当时 Unicode 尚未收录的 52 个《简化字总表》汉字、28 个《康熙字典》和《辞海》汉字部件 (0xFE50–FEA0)。
- 注:GB 5007.1 和 GB 6345.1 等标准,在第 10 区(内码 0xAAA1–AAFE)补充 94 个半形 ASCII 字符、
在第 11 区(内码 0xABA1–ABC0)补充汉语拼音 ü 的半形字符、a, e, i, o, u, ü 阴阳上去四声的半形字符、和 ê, ɑ, ḿ, ń, ň, ǹ, ɡ 的半形字符共 32 个。
GBK 和 GB 18030 标准均没有遵从。
GBK与微软CP936的分别
- 微软 CP936 在 0x80 加入欧元符号 €(1995年 GBK 推出时,欧元尚未诞生)
- 微软 CP936 没有 0xA6D9–A6DF, A6EC–A6ED, A6F3, A8BC, A8BF, A989–A995, FE50–FEA0(GB 13000.1 / Unicode 1.0 没有那些字符)。
GB 18030-2000与GBK的分别
- GB 18030-2000 增加了4字节的码位,第一个字节的值从 0x81–FE,第二个字节的值从 0x30–39,第三个字节从 0x81–FE,第四个字节从 0x30–39。并把 Unicode 的所有可能编码,都对应到其中一个 GB 18030 码位。
- GB 18030-2000 收录所有中日韩统一表意文字扩展A区汉字。
- GB 18030-2000 把欧元符号收录在 0xA2E3。
很不幸,在微软简体中文系统,0x80 依旧是欧元符号;0xA2E3 则另有一个欧元符号,对应至私人造字码 U+E76C。 - 因为 Unicode ≥3.0 已收录以下字符,在 GB 18030-2000 的官方文件附录E 和 GB 18030-2005 的官方文件附录E-表E.1,列出了以下字符在下一版 GB 13000(注:相当于 ISO/IEC 10646:2003)的位置。事实上,GB 18030-2000 和 -2005 已修改了它们所对应的 Unicode 对应。
GB码位 | 字符 | GBK 对应的造字区 | GB 18030 对应的Unicode |
---|---|---|---|
A8BF | ǹ | U+E7C8 | U+01F9 |
A989 | 〾 | U+E7E7 | U+303E |
A98A | ⿰ | U+E7E8 | U+2FF0 |
A98B | ⿱ | U+E7E9 | U+2FF1 |
A98C | ⿲ | U+E7EA | U+2FF2 |
A98D | ⿳ | U+E7EB | U+2FF3 |
A98E | ⿴ | U+E7EC | U+2FF4 |
A98F | ⿵ | U+E7ED | U+2FF5 |
A990 | ⿶ | U+E7EE | U+2FF6 |
A991 | ⿷ | U+E7EF | U+2FF7 |
A992 | ⿸ | U+E7F0 | U+2FF8 |
A993 | ⿹ | U+E7F1 | U+2FF9 |
A994 | ⿺ | U+E7F2 | U+2FFA |
A995 | ⿻ | U+E7F3 | U+2FFB |
FE50 | ⺁ | U+E815 | U+2E81 |
FE54 | ⺄ | U+E819 | U+2E84 |
FE55 | 㑇 | U+E81A | U+3473 |
FE56 | 㑇 | U+E81B | U+3447 |
FE57 | ⺈ | U+E81C | U+2E88 |
FE58 | ⺋ | U+E81D | U+2E8B |
FE5A | 㖞 | U+E81F | U+359E |
FE5B | 㘎 | U+E820 | U+361A |
FE5C | 㘎 | U+E821 | U+360E |
FE5D | ⺌ | U+E822 | U+2E8C |
FE5E | ⺗ | U+E823 | U+2E97 |
FE5F | 㤘 | U+E824 | U+396E |
FE60 | 㤘 | U+E825 | U+3918 |
FE62 | 㧏 | U+E827 | U+39CF |
FE63 | 㧟 | U+E828 | U+39DF |
FE64 | 㧐 | U+E829 | U+3A73 |
FE65 | 㧐 | U+E82A | U+39D0 |
FE68 | 㭎 | U+E82D | U+3B4E |
FE69 | 㱮 | U+E82E | U+3C6E |
FE6A | 㳠 | U+E82F | U+3CE0 |
FE6B | ⺧ | U+E830 | U+2EA7 |
FE6E | ⺪ | U+E833 | U+2EAA |
FE6F | 䁖 | U+E834 | U+4056 |
FE70 | 䅟 | U+E835 | U+415F |
FE71 | ⺮ | U+E836 | U+2EAE |
FE72 | 䌷 | U+E837 | U+4337 |
FE73 | ⺳ | U+E838 | U+2EB3 |
FE74 | ⺶ | U+E839 | U+2EB6 |
FE75 | ⺷ | U+E83A | U+2EB7 |
FE77 | 䎬 | U+E83C | U+43B1 |
FE78 | 䎬 | U+E83D | U+43AC |
FE79 | ⺻ | U+E83E | U+2EBB |
FE7A | 䏝 | U+E83F | U+43DD |
FE7B | 䓖 | U+E840 | U+44D6 |
FE7C | 䙌 | U+E841 | U+4661 |
FE7D | 䙌 | U+E842 | U+464C |
FE80 | 䜣 | U+E844 | U+4723 |
FE81 | 䜩 | U+E845 | U+4729 |
FE82 | 䞍 | U+E846 | U+477C |
FE83 | 䞍 | U+E847 | U+478D |
FE84 | ⻊ | U+E848 | U+2ECA |
FE85 | 䦂 | U+E849 | U+4947 |
FE86 | 䥺 | U+E84A | U+497A |
FE87 | 䥽 | U+E84B | U+497D |
FE88 | 䦂 | U+E84C | U+4982 |
FE89 | 䦃 | U+E84D | U+4983 |
FE8A | 䦅 | U+E84E | U+4985 |
FE8B | 镢 | U+E84F | U+4986 |
FE8C | 䦷 | U+E850 | U+499F |
FE8D | 䦶 | U+E851 | U+499B |
FE8E | 䦷 | U+E852 | U+49B7 |
FE8F | 䦶 | U+E853 | U+49B6 |
FE92 | 䲣 | U+E856 | U+4CA3 |
FE93 | 䲟 | U+E857 | U+4C9F |
FE94 | 䲠 | U+E858 | U+4CA0 |
FE95 | 䲡 | U+E859 | U+4CA1 |
FE96 | 䲣 | U+E85A | U+4C77 |
FE97 | 䲢 | U+E85B | U+4CA2 |
FE98 | 䴓 | U+E85C | U+4D13 |
FE99 | 䴔 | U+E85D | U+4D14 |
FE9A | 䴕 | U+E85E | U+4D15 |
FE9B | 䴖 | U+E85F | U+4D16 |
FE9C | 䴗 | U+E860 | U+4D17 |
FE9D | 鷈 | U+E861 | U+4D18 |
FE9E | 𬸯 | U+E862 | U+4D19 |
FE9F | 䶮 | U+E863 | U+4DAE |
GB 18030-2005与GB 18030-2000的分别
- 夹附中日韩统一表意文字扩展B区汉字、朝鲜文、蒙古文(包括满文、托忒文、锡伯文、阿礼嘎礼文)、德宏傣文、藏文、维吾尔文/哈萨克文/柯尔克兹文,和彝文的字形表。 韩文包含 3,376 个韩字加 69 个字母加 51 个兼容字母、 蒙古文包含 149 字、傣文包含 35 字、藏文包含 193 字、 维吾尔文包含 49 字加 153 个字母表达形式、 彝文包含 1,215 字(不包含 U+A4A2, U+A4A3, U+A4B4, U+A4C1, U+A4C5)。
- GB 18030-2000 没有把 ḿ 对应至 Unicode。在 GB 18030-2005 终于获订正。见官方文件附录E-表E.2。
GB码位 | 字符 | GB 18030-2000 对应的造字区 | GB 18030-2005 对应的Unicode |
---|---|---|---|
A8BC | ḿ | U+E7C7 | U+1E3F |
GB 18030 仍未订正对应的字符
- 在 GB 18030-2000 推出时,因未有中日韩统一表意文字扩展B区,以下字符被对应到造字区。 而在 GB 18030-2005 推出时,尽管 Unicode 已收录了扩展B区, 但在 GB 18030-2005 标准中,以下字符仍然对应到造字区,未有作出修改。 见 WG2 N2773 文件。 结果,GB 18030-2005 重复收录了以下 6 字两次。
GB码位 | 字符 | GB 18030 对应的造字区 | Unicode ≥3.1 | 因此而重复的GB码位 |
---|---|---|---|---|
FE51 | 𠂇 | U+E816 | U+20087 | 95329031 |
FE52 | 𠂉 | U+E817 | U+20089 | 95329033 |
FE53 | 𠃌 | U+E818 | U+200CC | 95329730 |
FE6C | 𡗗 | U+E831 | U+215D7 | 9536B937 |
FE76 | 𢦏 | U+E83B | U+2298F | 9630BA35 |
FE91 | 𤇾 | U+E855 | U+241FE | 9635B630 |
- 以下字符在 GB 18030-2000 时已有,而当时 Unicode 仍未有以下字符。 尽管 Unicode 在 4.1 版本,已经把以下字符悉数加入,但在 GB 18030-2005 标准中,以下字符仍然对应到造字区。 见 WG2 N2773 文件。
GB码位 | 字符 | GB 18030 对应的造字区 | Unicode ≥4.1 |
---|---|---|---|
A6D9 | ︐ | U+E78D | U+FE10 |
A6DA | ︒ | U+E78E | U+FE12 |
A6DB | ︑ | U+E78F | U+FE11 |
A6DC | ︓ | U+E790 | U+FE13 |
A6DD | ︔ | U+E791 | U+FE14 |
A6DE | ︕ | U+E792 | U+FE15 |
A6DF | ︖ | U+E793 | U+FE16 |
A6EC | ︗ | U+E794 | U+FE17 |
A6ED | ︘ | U+E795 | U+FE18 |
A6F3 | ︙ | U+E796 | U+FE19 |
FE59 | 龴 | U+E81E | U+9FB4 |
FE61 | 龵 | U+E826 | U+9FB5 |
FE66 | 龶 | U+E82B | U+9FB6 |
FE67 | 龷 | U+E82C | U+9FB7 |
FE6D | 龸 | U+E832 | U+9FB8 |
FE7E | 龹 | U+E843 | U+9FB9 |
FE90 | 龺 | U+E854 | U+9FBA |
FEA0 | 龻 | U+E864 | U+9FBB |