Unicode編碼理解

Unicode(統一碼、萬國碼、單一碼)是計算機科學領域裏的一項業界標準,包括字符集、編碼方案等。它爲每種語言中的每個字符設定了統一併且唯一的二進制編碼。它包含世界上所有語言以及來自數學領域和其他領域的各種符號。

Unicode用4個字節,數字0-0x10FFFF來映射,有1114112個碼位(碼位就是可以分配給字符的數字),全世界的字符加起來也用不了所有的碼位。

unicode只是一個符號集,是不能直接存儲到文件中的。它必須以某種編碼格式(UTF-8/GBK/BIG5),變成連續字節的形式才能存儲進去。GBK編碼包含全部中文字符;UTF-8則包含全世界所有國家需要用到的字符。

編碼是將字符串轉化爲一系列字節的過程。UTF-8是將數字轉換到程序數據的編碼方案,是Unicode的實現方式之一

在表示一個Unicode的字符時,通常會用“U+”然後緊接着一組十六進制的數字來表示這一個字符。
 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章