字符編碼(一)

字符編碼(一)

字符必須編碼後才能被計算機處理,計算機使用的缺省編碼方式就是計算機的內碼。早期的計算機使用七位ASCII編碼,爲了處理漢字,程序員設計了用於簡體中文的GB2312和用於繁體中文的big5。


GB2312(1980年)共收錄了7445個字符,包括6763個漢字和682個其他符號。漢字區內碼範圍高字節從B0-F7,低字節從A1-FE,佔用的碼位是72*94=6768。其中有5個空位D7FA-D7FE。


GB2312支持的漢字太少,1995年的漢字擴展規範GBK1.0收錄了21886個字符,它分爲漢字區和圖形符號區。漢字區包括21003個字符。


從ASCII,GB2312到GBK,這些編碼方法是向下兼容的,即同一個字符在這些方案中總是相同的編碼,後來的標準支持更多的字符。在這些編碼中,英文和中文可以統一地處理。區分中文編碼的方法是高字節的最高位不爲0。按照程序員的稱呼,GB2312,GBK都屬於雙字節字符集(DBCS)。


2000年的GB18030是取代GBK1.0的正式國家標準,該標準共收錄27484個漢字,同時還收錄了蒙文、藏文和維吾爾文等主要的少數民族文字。從漢字字彙上說,GB18030在GB13000.1的20902個漢字的基礎上,增加了CJK擴展A的6582個漢字(Unicode碼0x3400-0x4db5),一共收錄了27484個漢字。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章