ASCII、Unicode和UTF-8

拜讀
阮一峯關於ASCII、Unicode和utf-8的關係
加上各種查詢內容,決定把個人的理解記錄下來
Ascii:**
Ascii是一種英文的編碼方式,採用一個字節,一個字節8個bit,最左邊一位爲空,所以用7個bit位表示數據,共計128個子元,其中33個字元無法顯示。

ASCII的侷限在於只能顯示26個基本拉丁字母、阿拉伯數目字和英式標點符號,因此只能用於顯示現代美國英語(而且在處理英語當中的外來詞如naïve、café、élite等等時,所有重音符號都不得不去掉,即使這樣做會違反拼寫規則)

Unicode:
隨着時代的發展,ASCII越來越不適應互聯網的要求,於是出現了Unicode格式,它是把世界上所有的語言字符都進行統計,每個賦予它相應的編碼格式,因此一般用到四個字節以上,Unicode至今仍在不斷增修,每個新版本都加入更多新的字符。目前最新的版本爲2014年6月16日公佈的7.0.0[1],已收入超過十萬個字符(第十萬個字符在2005年獲採納)

Unicode只是一種編碼方式,並沒有對如何存儲進行了說明

UTF-8:
這是一種基於Unicode格式的編碼方式,它是對ascii和Unicode的調和,既滿足了英文國家對編碼方式的簡化,也滿足非英文國家對字符的編碼,主要體現爲,對ascii碼可以用一個字節進行編碼,保證了對ascii的支持;對非英文字符,通過變長的編碼形式編碼,保證了對其的支持。

以上只是個人的理解,如想看具體編碼的詳細信息請參考

阮一峯關於ASCII、Unicode和utf-8的關係

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章