字符編碼和字符集的區別(utf-8 utf-16,ascII,gb2312,gbk)

今天學習ＩＯ流，對幾個編碼不瞭解，上網查到了，奉獻給大家！

1.ASCII(American Standard Code for Information Interchange)碼，是一種字符集。美國標準信息交換代碼是由美國國家標準學會(American National Standard Institute , ANSI )制定的，標準的單字節字符編碼方案，用於基於文本的數據。起始於50年代後期，在1967年定案。它最初是美國國家標準，供不同計算機在相互通信時用作共同遵守的西文字符編碼標準，它已被國際標準化組織（International Organization for Standardization, ISO）定爲國際標準，稱爲ISO 646標準。適用於所有拉丁文字字母。ASCII 碼使用指定的 7 位或 8 位二進制數組合來表示 128 或 256 種可能的字符。標準 ASCII 碼也叫基礎ASCII碼，使用 7 位二進制數來表示所有的大寫和小寫字母，數字 0 到 9、標點符號，以及在美式英語中使用的特殊控制字符。其中：
0～31及127(共33個)是控制字符或通訊專用字符（其餘爲可顯示字符），如控制符：LF（換行）、CR（回車）、FF（換頁）、DEL（刪除）、BS（退格)、BEL（振鈴）等；通訊專用字符：SOH（文頭）、EOT（文尾）、ACK（確認）等；ASCII值爲 8、9、10 和 13 分別轉換爲退格、製表、換行和回車字符。它們並沒有特定的圖形顯示，但會依不同的應用程序，而對文本顯示有不同的影響。
32～126(共95個)是字符(32sp是空格），其中48～57爲0到9十個阿拉伯數字；

　　65～90爲26個大寫英文字母，97～122號爲26個小寫英文字母，其餘爲一些標點符號、運算符號等。
同時還要注意，在標準ASCII中，其最高位(b7)用作奇偶校驗位。所謂奇偶校驗，是指在代碼傳送過程中用來檢驗是否出現錯誤的一種方法，一般分奇校驗和偶校驗兩種。奇校驗規定：正確的代碼一個字節中1的個數必須是奇數，若非奇數，則在最高位b7添1；偶校驗規定：正確的代碼一個字節中1的個數必須是偶數，若非偶數，則在最高位b7添1。

2.UNICODE（Universal Multiple-Octet Coded Character Set)字符集

Unicode（統一碼、萬國碼、單一碼）是一種在計算機上使用的字符編碼。它爲每種語言中的每個字符設定了統一併且唯一的二進制編碼，以滿足跨語言、跨平臺進行文本轉換、處理的要求。

unicode有兩種方式：UCS-2,UCS-4,顧名思義，是兩個字節和4個字節。
具體的可以google和百度。總的來講，計算機前期，一般是ASCII，現在基於全球一體化，基本都用unicode。

－－－－－－－－－－－－－－－－－－－－－－－－－－－－－

字符編碼

1.Gbk，GB2312，GB18030

字符必須編碼後才能被計算機處理。計算機使用的缺省編碼方式就是計算機的內碼。早期的計算機使用7位的ASCII編碼，爲了處理漢字，程序員設計了用於簡體中文的GB2312和用於繁體中文的big5。
GB2312(1980年)一共收錄了7445個字符，包括6763個漢字和682個其它符號。漢字區的內碼範圍高字節從B0-F7，低字節從A1-FE，佔用的碼位是72*94=6768。其中有5個空位是D7FA-D7FE。
GB2312支持的漢字太少。1995年的漢字擴展規範GBK1.0收錄了21886個符號，它分爲漢字區和圖形符號區。漢字區包括21003個字符。2000年的GB18030是取代GBK1.0的正式國家標準。該標準收錄了27484個漢字，同時還收錄了藏文、蒙文、維吾爾文等主要的少數民族文字。現在的PC平臺必須支持GB18030，對嵌入式產品暫不作要求。所以手機、MP3一般只支持GB2312。
從ASCII、GB2312、GBK到GB18030，這些編碼方法是向下兼容的，即同一個字符在這些方案中總是有相同的編碼，後面的標準支持更多的字符。在這些編碼中，英文和中文可以統一地處理。區分中文編碼的方法是高字節的最高位不爲0。按照程序員的稱呼，GB2312、GBK到GB18030都屬於雙字節字符集 (DBCS)。

GB 18030是中國所有非手持/嵌入式計算機系統的強制實施標準.

2.UTF－8，UTF－16，UTF-32

UTF-8, 8bit編碼, ASCII不作變換, 其他字符做變長編碼, 每個字符1-3 byte. 通常作爲外碼. 有以下優點:
* 與CPU字節順序無關, 可以在不同平臺之間交流
* 容錯能力高, 任何一個字節損壞後, 最多隻會導致一個編碼碼位損失, 不會鏈鎖錯誤(如GB碼錯一個字節就會整行亂碼)
UTF-16, 16bit編碼, 是變長碼, 大致相當於20位編碼, 值在0到0x10FFFF之間, 基本上就是unicode編碼的實現. 它是變長碼, 與CPU字序有關, 但因爲最省空間, 常作爲網絡傳輸的外碼.
UTF-16是unicode的preferred encoding.
UTF-32, 僅使用了unicode範圍(0到0x10FFFF)的32位編碼, 相當於UCS-4的子集.

具體的也就這麼多。呵呵。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

字符編碼和字符集的區別(utf-8 utf-16,ascII,gb2312,gbk)

使用c#強大的表達式樹實現對象的深克隆之解決循環引用的問題

free AI online tools All In One

痞子衡嵌入式：恩智浦i.MX RT1xxx系列MCU啓動那些事（12.A）- uSDHC eMMC啓動時間(RT1170)

linux安裝cuda和cudnn

Mellanox網卡開啓SR-IOV

模擬手機設備：使用 Playwright 實現移動端自動化測試

HTML 00 Tutorial

全面系統的AI學習路徑，幫助普通人也能玩轉AI

從零開始：使用 Playwright 腳本錄製實現自動化測試

騰訊面試：什麼鎖比讀寫鎖性能更高？

黑馬程序員-泛型入門

photoshop的一些技巧

javascript 數組幾個有用的方法-過濾，遍歷

字符編碼和字符集的區別(utf-8 utf-16,ascII,gb2312,gbk)

黑馬程序員-IO流

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結