字符集詳解

我們一般通常使用的字符集有:ASCII ISO-8859-1 GB2312 big5 GBK Unicode2.0,另外還有一種基於32位的GB18030字符集是國家新出來的一種字符集,其爲一個漢字設計了4個字節,因此可以說是目前爲止,對漢字支持無論是簡體還是繁體都是支持比較好的一種,當然主要的缺點就是太佔空間,不利於在網路上傳輸。

如果不考慮GB18030字符集的話,最詳盡的字符集應該是Unicode了,差不多支持了GBK所支持的所有漢字不敢過總量上還是稍微差一點。GBK儘管不是國家標準,但是已經成爲事實上的一個行業標準,同時支持漢字的簡體和繁體兩種字體。比Gig5和GB2312強大些,爲了更加明確的說明各個字符間的差異,先詳細說明如下:


  • ASCII:
    7位字符集,包括52個大小寫英語字母,10個阿拉伯數字,1個空格,32個符號。
    適用於純英文環境,兼容性最好,在其他各種字符集下都能正確識別;不適用於英語以外的環境。

  • Latin1(ISO-8859-1):
    8位字符集,向下兼容ASCII字符集,並增加了一些西歐語言中的字母和符號。
    優點:適用於西歐語種,得到世界廣泛的軟件支持;
    缺點:不能表示拉丁語系以外的語言,不兼容少量只使用7位字符集的古老程序。

  • GB2312:
    16位字符集,收錄有6763個簡體漢字,682個符號;
    優點:適用於簡體中文環境,屬於中國國家標準,在大陸(和新加坡?)得到廣泛支持;
    缺點:不兼容繁體中文,其漢字集合過少。

  • big5:
    16位字符集,收錄有13060個繁體漢字,440個符號;
    優點:適用於繁體中文環境,屬於臺灣官方標準,爲繁體Windows所使用,在臺灣和香港得到廣泛支持,而且,由於臺灣軟件業發展較早,國外軟件支持big5的比支持gb2312/gbk的要多;
    缺點: 不兼容簡體中文環境,和gb2312之間需要轉換。

  • GBK:
    16位字符集,收錄有21003個漢字,883個符號;
    優點:適用於簡繁中文共存的環境,爲簡體Windows所使用(代碼頁cp936),向下完全兼容gb2312;
    缺點:不屬於官方標準,和big5之間需要轉換。

  • GB18030:
    32位字符集;收錄漢字數不詳,應該相當詳盡。
    優點:可以收錄所有你能想到的文字和符號,屬於中國最新的國家標準;
    缺點:由於空間使用效率低(一個漢字佔四個字節),運行速度慢, 目前支持它的軟件較少。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章