關於字符編碼

ansi  <127  單字節,半角
GB2312 是對 ASCII 的中文擴展。 雙字節,全角 >127,127-255
gbk  GBK包括了GB2312 的所有內容,同時又增加了近20000個新的漢字(包括繁體字)和符號。 >127,隨便
gb18030  又加了幾千個字
統稱“DBCS“(Double Byte Charecter Set 雙字節字符集
Unicode   廢了所有的地區性編碼方案,重新搞一個包括了地球上所有文化、所有字母和符號 的編碼!“字節”是一個8位的物理存貯單元,而“字符”則是一個文化相關的符號。在unicode中,一個字符就是兩個字節。從unicode開始,無論是半角的英文字母,還是全角的漢字,它們都是統一的”一個字符“
UTF-8就是每次8個位傳輸數據,而UTF-16就是每次16個位。UTF-8就是在互聯網上使用最廣的一種unicode的實現方式,unicode一箇中文字符佔2個字節,而UTF-8一箇中文字符佔3個字節

最後簡單總結一下:

  • 中國人民通過對 ASCII 編碼的中文擴充改造,產生了 GB2312 編碼,可以表示6000多個常用漢字。
  • 漢字實在是太多了,包括繁體和各種字符,於是產生了 GBK 編碼,它包括了 GB2312 中的編碼,同時擴充了很多。
  • 中國是個多民族國家,各個民族幾乎都有自己獨立的語言系統,爲了表示那些字符,繼續把 GBK 編碼擴充爲 GB18030 編碼。
  • 每個國家都像中國一樣,把自己的語言編碼,於是出現了各種各樣的編碼,如果你不安裝相應的編碼,就無法解釋相應編碼想表達的內容。
  • 終於,有個叫 ISO 的組織看不下去了。他們一起創造了一種編碼 UNICODE ,這種編碼非常大,大到可以容納世界上任何一個文字和標誌。所以只要電腦上有 UNICODE 這種編碼系統,無論是全球哪種文字,只需要保存文件的時候,保存成 UNICODE 編碼就可以被其他電腦正常解釋。
  • UNICODE 在網絡傳輸中,出現了兩個標準 UTF-8 和 UTF-16,分別每次傳輸 8個位和 16個位。於是就會有人產生疑問,UTF-8 既然能保存那麼多文字、符號,爲什麼國內還有這麼多使用 GBK 等編碼的人?因爲 UTF-8 等編碼體積比較大,佔電腦空間比較多,如果面向的使用人羣絕大部分都是中國人,用 GBK 等編碼也可以。

來自:https://www.zhihu.com/question/23374078  

http://www.qianxingzhem.com/post-1499.html

更多:https://wenku.baidu.com/view/cbb11a176edb6f1aff001f8d.html?sxts=1523715864119



發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章