Unicode編碼總結理解

Unicode(統一碼、萬國碼、單一碼)是計算機科學領域裏的一項業界標準,包括字符集、編碼方案等。它爲每種語言中的每個字符設定了統一併且唯一的二進制編碼。它包含世界上所有語言以及來自數學領域和其他領域的各種符號。

Unicode用4個字節,數字0-0x10FFFF來映射,有1114112個碼位(碼位就是可以分配給字符的數字),全世界的字符加起來也用不了所有的碼位。

需要注意的是,Unicode只是一個符號集,它只規定了符號的二進制代碼,卻沒有規定這個二進制代碼應該如何存儲。

編碼是將字符串轉化爲一系列字節的過程。UTF-8是將數字轉換到程序數據的編碼方案,是Unicode的實現方式之一

在表示一個Unicode的字符時,通常會用“U+”然後緊接着一組十六進制的數字來表示這一個字符。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章