AscII unicode utf-8

原創

2020-02-22 15:56

目前計算機中用得最廣泛的字符集及其編碼，是由美國國家標準局(ANSI)制定的ASCII碼（American Standard Code for Information Interchange，美國標準信息交換碼），它已被國際標準化組織（ISO）定爲國際標準，稱爲ISO 646標準。適用於所有拉丁文字字母，ASCII碼有7位碼和8位碼兩種形式。

因爲1位二進制數可以表示（21=）2種狀態：0、1；而2位二進制數可以表示（22）=4種狀態：00、01、10、11；依次類推，7位二進制數可以表示（27=）128種狀態，每種狀態都唯一地編爲一個7位的二進制碼，對應一個字符（或控制碼），這些碼可以排列成一個十進制序號0～127。所以，7位ASCII碼是用七位二進制數進行編碼的，可以表示128個字符。

第0～32號及第127號(共34個)是控制字符或通訊專用字符，如控制符：LF（換行）、CR（回車）、FF（換頁）、DEL（刪除）、BEL（振鈴）等；
通訊專用字符：SOH（文頭）、EOT（文尾）、ACK（確認）等；

第33～126號(共94個)是字符，其中第48～57號爲0～9十個阿拉伯數字；65～90號爲26個大寫英文字母，97～122號爲26個小寫英文字母，其餘爲一些標點符號、運算符號等。

注意：在計算機的存儲單元中，一個ASCII碼值佔一個字節(8個二進制位)，其最高位(b7)用作奇偶校驗位。所謂奇偶校驗，是指在代碼傳送過程中用來檢驗是否出現錯誤的一種方法，一般分奇校驗和偶校驗兩種。奇校驗規定：正確的代碼一個字節中1的個數必須是奇數，若非奇數，則在最高位b7添1；偶校驗規定：正確的代碼一個字節中1的個數必須是偶數，若非偶數，則在最高位b7添1。

Unicode碼：Unicode碼也是一種國際標準編碼，採用二個字節編碼，與ANSI碼不兼容。目前，在網絡、Windows系統和很多大型軟件中得到應用。
在Unicode中：漢字“字”對應的數字是23383。在Unicode中，我們有很多方式將數字23383表示成程序中的數據，包括：UTF-8、 UTF-16、UTF-32。UTF是“UCS Transformation Format”的縮寫，可以翻譯成Unicode字符集轉換格式，即怎樣將Unicode定義的數字轉換成程序數據。例如，“漢字”對應的數字是 0x6c49和0x5b57，而編碼的程序數據是：
　　BYTE data_utf8[] = {0xE6, 0xB1, 0x89, 0xE5, 0xAD, 0x97}; // UTF-8編碼
　　WORD data_utf16[] = {0x6c49, 0x5b57}; // UTF-16編碼
　　DWORD data_utf32[] = {0x6c49, 0x5b57}; // UTF-32編碼
UTF-8
　　UTF-8以字節爲單位對Unicode進行編碼。從Unicode到UTF-8的編碼方式如下：
　　Unicode編碼(16進制)　║　UTF-8 字節流(二進制)
　　000000 - 00007F　║　0xxxxxxx
　　000080 - 0007FF　║　110xxxxx 10xxxxxx
　　000800 - 00FFFF　║　1110xxxx 10xxxxxx 10xxxxxx
　　010000 - 10FFFF　║　11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
UTF-8的特點是對不同範圍的字符使用不同長度的編碼。對於0x00-0x7F之間的字符，UTF-8編碼與ASCII編碼完全相同。UTF-8編碼的最大長度是4個字節。從上表可以看出，4字節模板有21個x，即可以容納21位二進制數字。Unicode的最大碼位0x10FFFF也只有21位。

iteye_14173

發佈了31 篇原創文章 · 獲贊 4 · 訪問量 1654

私信關注

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

AscII unicode utf-8

公司剛入職了一名 Java 中級開發，短短 4 行代碼居然湊齊了 3 個 bug！我哭了~~

公衆號5月C#/.NET熱文一覽

git 下載大陸鏡像地址

世界上第一位程序員

jdbc編程基礎（三）——jdbc的事務

不考慮ie5 ie6最簡單的創建XMLHttpRequest對象的方法

jdbc編程基礎（二）——jdbc編程基本步驟

jdbc編程基礎（一）——jdbc是什麼

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結