字符编码(一)

字符编码(一)

字符必须编码后才能被计算机处理,计算机使用的缺省编码方式就是计算机的内码。早期的计算机使用七位ASCII编码,为了处理汉字,程序员设计了用于简体中文的GB2312和用于繁体中文的big5。


GB2312(1980年)共收录了7445个字符,包括6763个汉字和682个其他符号。汉字区内码范围高字节从B0-F7,低字节从A1-FE,占用的码位是72*94=6768。其中有5个空位D7FA-D7FE。


GB2312支持的汉字太少,1995年的汉字扩展规范GBK1.0收录了21886个字符,它分为汉字区和图形符号区。汉字区包括21003个字符。


从ASCII,GB2312到GBK,这些编码方法是向下兼容的,即同一个字符在这些方案中总是相同的编码,后来的标准支持更多的字符。在这些编码中,英文和中文可以统一地处理。区分中文编码的方法是高字节的最高位不为0。按照程序员的称呼,GB2312,GBK都属于双字节字符集(DBCS)。


2000年的GB18030是取代GBK1.0的正式国家标准,该标准共收录27484个汉字,同时还收录了蒙文、藏文和维吾尔文等主要的少数民族文字。从汉字字汇上说,GB18030在GB13000.1的20902个汉字的基础上,增加了CJK扩展A的6582个汉字(Unicode码0x3400-0x4db5),一共收录了27484个汉字。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章