GBK、GB18030、GB2312 區別

GBK、GB18030、GB2312 區別

 1、   標準標準編號:GB 2312-1980
標準名稱:信息交換用漢字編碼字符集 基本集
標準狀態:現行
英文標題:Code of chinese graphic character set for information interchange; Primary set
實施日期:1981-10-01
 
GB2312(1980年)一共收錄了7445個字符,包括6763個漢字和682個其它符號。漢字區的內碼範圍高字節從B0-F7,低字節從A1-FE,佔用的碼位是72*94=6768。其中有5個空位是D7FA-D7FE。
 

GB2312 碼是中華人民共和國國家漢字信息交換用編碼,全稱《信息交換用漢字編碼字符集——基本集》,由國家標準總局發佈,1981年5月1日實施,通行於大陸。新加坡等地也使用此編碼。

GB2312 收錄簡化漢字及符號、字母、日文假名等共 7445 個圖形字符,其中漢字佔 6763 個。GB2312 規定“對任意一個圖形字符都採用兩個字節表示,每個字節均採用七位編碼表示”,習慣上稱第一個字節爲“高字節”,第二個字節爲“低字節”。

GB2312 將代碼表分爲 94 個區,對應第一字節;每個區 94 個位,對應第二字節,兩個字節的值分別爲區號值和位號值加 32(2OH),因此也稱爲區位碼。01-09 區爲符號、數字區,16-87 區爲漢字區,10-15 區、88-94 區是有待進一步標準化的空白區。GB2312 將收錄的漢字分成兩級:第一級是常用漢字計 3755 個,置於 16-55 區,按漢語拼音字母/筆形順序排列;第二級漢字是次常用漢字計 3008 個,置於 56-87 區,按部首/筆畫順序排列。故而GB2312最多能表示 6763 個漢字。

GB2312 的編碼範圍爲 2121H-777EH,與 ASCII 有重疊,通行方法是將 GB 碼兩個字節的最高位置 1 以示區別。

 

 

 

 
2、GBK
  1995年的漢字擴展規範GBK1.0收錄了21886個符號,它分爲漢字區和圖形符號區。漢字區包括21003個字符。
   GBK是GB18030的子集 ,  GBK是包括中日韓字符的大字符集合
  在90年代初期,制定了一個GBK的規範,就是在大陸的6763字後面,增加BIG5裏面的15000漢字的部分.這個部分是字型與臺灣的字型是一樣的,但是編碼仍然是SO2022.
 
全國信息技術化技術委員會於1995年12月1日《漢字內碼擴展規範》。GBK 向下與 GB2312 完全兼容,向上支持 ISO 10646 國際標準,在前者向後者過渡過程中起到的承上啓下的作用。GBK 亦採用雙字節表示,總體編碼範圍爲 8140-FEFE 之間,首字節在 81-FE 之間,尾字節在 40-FE 之間,剔除 XX7F 一條線。

GBK 共收入 21886 個漢字和圖形符號,包括:

* GB2312 中的全部漢字、非漢字符號。
* BIG5 中的全部漢字。
* 與 ISO 10646 相應的國家標準 GB13000 中的其它 CJK 漢字,以上合計 20902 個漢字。
* 其它漢字、部首、符號,共計 984 個。

微軟公司自 Windows 95 簡體中文版開始支持GBK代碼,但目前的多數搜索引擎都不能很好地支持 GBK 漢字。

GBK 編碼區分三部分:

* 漢字區,包括:

  • GBK/2:OXBOA1-F7FE, 收錄 GB2312 漢字 6763 個,按原序排列;
  • GBK/3:OX8140-AOFE,收錄 CJK 漢字 6080 個;
  • GBK/4:OXAA40-FEAO,收錄 CJK 漢字和增補的漢字 8160 個。

* 圖形符號區,包括:

  • GBK/1:OXA1A1-A9FE,除 GB2312 的符號外,還增補了其它符號
  • GBK/5:OXA840-A9AO,擴除非漢字區。

* 用戶自定義區:

  • 即 GBK 區域中的空白區,用戶可以自己定義字符。

 

 

 

 

 
3、   標準編號:GB 18030-2005
標準名稱:信息技術 中文編碼字符集
標準狀態:現行
英文標題:Information technology -- Chinese coded character set
替代情況:GB 18030-2000
實施日期:2006-05-01
頒佈部門: 國家標準化管理委員會
內容簡介:本標準規定了信息技術用的中文圖形字符及其二進制編碼的十六進制表示。
 
2000年的GB18030是取代GBK1.0的正式國家標準。該標準收錄了27484個漢字,同時還收錄了藏文、蒙文、維吾爾文等主要的少數民族文字。從漢字字彙上說,GB18030在GB13000.1的20902個漢字的基礎上增加了CJK擴展A的6582個漢字(Unicode碼0x3400-0x4db5),一共收錄了27484個漢字。
 
GB18030的編碼採用單字節、雙字節和4字節方案。其中單字節、雙字節和GBK是完全兼容的。4字節編碼的碼位就是收錄了CJK擴展A的6582個漢字。
 

GB18030 是最新的漢字編碼字符集國家標準, 向下兼容 GBK 和 GB2312 標準。 GB18030 編碼是一二四字節變長編碼。一字節部分從 0x0~0x7F 與 ASCII 編碼兼容。 二字節部分, 首字節從 0x81~0xFE, 尾字節從 0x40~0x7E 以及 0x80~0xFE, 與 GBK 標準基本兼容。 四字節部分, 第一字節從 0x81~0xFE, 第二字節從 0x30~0x39, 第三和第四字節的範圍和前兩個字節分別相同。 四字節部分覆蓋了從 0x0080 開始, 除去二字節部分已經覆蓋的所有 Unicode 3.1 碼位。也就是說, GB18030 編碼在碼位空間上做到了與 Unicode 標準一一對應,這一點與 UTF-8 編碼類似。

目前最新的 glibc 2.2.x 系列已經全面支持了 GB18030 Locale 和 GB18030 與 UCS-4 之間的編碼轉換, 也就是說在系統層上 Linux 已經可以支持 GB18030 標準了。 下面問題的關鍵就是怎樣讓 XFree86 窗口系統也支持 GB18030 標準。

BIG5

BIG5 是通行於臺灣、香港地區的一個繁體字編碼方案。雖然存在一些瑕疵,但廣泛應用於電腦行業,尤其是互聯網中,從而成爲一種事實上的行業標準。

1983年10月,臺灣國家科學委員會、教育部國語推行委員會、中央標準局、行政院共同制定了《通用漢字標準交換碼》,後經修訂於1992年5月公佈,更名爲《中文標準交換碼》,BIG5 是臺灣資訊工業策進會根據以上標準制定的編碼方案。

BIG5 碼是雙字節編碼方案,其中第一個字節的值在 OXAO-OXFE 之間,第二個字節在 OX40-OX7E 和 OXA1-OXFE 之間。

BIG5 收錄 13461 個漢字和符號,包括:

* 符號 408 個,編碼位置 A140-A3BE
* 常用字 5401 個,編碼位置 A440-C67E,包括臺灣教育部頒佈的《常用國字標準字體表》的全部漢字 4808 個,臺灣教科書常用字 587 個,異體字 6 個。
* 次常用字 7652 個,編碼位置 C940-F9D5,包括臺灣教育部頒佈的《次常用國字標準字體表》的全部漢字 6341 個,《罕用國字標準字體表》中使用頻率較高的字 1311 個。

 

4、GB13000

GB13000 等同於國際標準的《通用多八位編碼字符集 (UCS)》 ISO10646.1,就是等同於 Unicode 的標準,代碼頁等等的都使用UTF的一套標準。

從 ASCII、GB2312、GBK 到 GB18030,這些編碼方法是向下兼容的,即同一個字符在這些方案中總是有相同的編碼,後面的標準支持更多的字符。在這些編碼中,英文和中文可以統一地處理。區分中文編碼的方法是高字節的最高位不爲 0。按照程序員的稱呼,GB2312、GBK 到 GB18030 都屬於雙字節字符集 (DBCS)。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章