字符編碼方式ASCII、Unicode、UTF-8

原創

2020-02-21 05:28

一、ASCII

即American Standard Code for Information Interchange（美國信息交換標準代碼），是基於拉丁字母的，主要用於顯示現代英語和其他西歐語言。一個字節有8個二進制位（bit），可以表示256（2^8）種不同的狀態，即256個符號，從0000000到11111111。ASCII碼一共規定了128個字符的編碼，比如大寫的字母A是65（二進制01000001），這128個符號（包括32個不能打印出來的控制符號），只佔用了一個字節的後面7位，最前面的1位統一規定爲0。

二、非ASCII

即ASCII以外的編碼，英語用128個符號編碼就夠了，但是用來表示其他語言，128個符號是不夠的。簡體中文常見的編碼方式是GB2312，使用兩個字節表示一個漢字，所以理論上最多可以表示256x256=65536個符號。雖然都是用多個字節表示一個符號，但是GB類的漢字編碼與後文的Unicode和UTF-8是毫無關係的。

三、Unicode

世界上存在着多種編碼方式，同一個二進制數字可以被解釋成不同的符號。因此，要想打開一個文本文件，就必須知道它的編碼方式，否則用錯誤的編碼方式解讀，就會出現亂碼。如果有一種編碼，將世界上所有的符號都納入其中。每一個符號都給予一個獨一無二的編碼，那麼亂碼問題就會消失。這就是Unicode，就像它的名字都表示的，這是一種所有符號的編碼。Unicode當然是一個很大的集合，現在的規模可以容納100多萬個符號。Unicode只是一個符號集，它只規定了符號的二進制代碼，卻沒有規定這個二進制代碼應該如何存儲。出現了Unicode的多種存儲方式，也就是說有許多種不同的二進制格式，可以用來表示Unicode。有兩個嚴重的問題，第一個問題是，如何才能區別Unicode和ASCII？計算機怎麼知道三個字節表示一個符號，而不是分別表示三個符號呢？第二個問題是，我們已經知道，英文字母只用一個字節表示就夠了，如果Unicode統一規定，每個符號用三個或四個字節表示，那麼每個英文字母前都必然有二到三個字節是0，這對於存儲來說是極大的浪費，文本文件的大小會因此大出二三倍，這是無法接受的。

四、UTF-8

互聯網的普及，強烈要求出現一種統一的編碼方式。UTF-8就是在互聯網上使用最廣的一種Unicode的實現方式。其他實現方式還包括UTF-16（字符用兩個字節或四個字節表示）和UTF-32（字符用四個字節表示），不過在互聯網上基本不用。重複一遍，UTF-8是Unicode的實現方式之一。UTF-8最大的一個特點，就是它是一種變長的編碼方式。它可以使用1~4個字節表示一個符號。UTF-8的編碼規則很簡單，只有二條：

1）對於單字節的符號，字節的第一位設爲0，後面7位爲這個符號的unicode碼。因此對於英語字母，UTF-8編碼和ASCII碼是相同的。

2）對於n字節的符號（n>1），第一個字節的前n位都設爲1，第n+1位設爲0，後面字節的前兩位一律設爲10。剩下的沒有提及的二進制位，全部爲這個符號的unicode碼。

Unicode符號範圍 | UTF-8編碼方式

(十六進制) | （二進制）

------------------------------------------------------------------
0000 0000-0000 007F | 0xxxxxxx
0000 0080-0000 07FF | 110xxxxx 10xxxxxx
0000 0800-0000 FFFF | 1110xxxx 10xxxxxx 10xxxxxx
0001 0000-0010 FFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

ChakYu_

發佈了31 篇原創文章 · 獲贊 31 · 訪問量 4萬+

私信關注

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

字符編碼方式ASCII、Unicode、UTF-8

一、ASCII

二、非ASCII

三、Unicode

四、UTF-8

再談23種設計模式（3）：行爲型模式（學習筆記）

Power Automate Desktop 安裝完，登錄後老是提示one driver 錯誤

微前端學習筆記(4):從微前端到微模塊之EMP與hel-micro方案探索

微前端學習筆記（1）：微前端總體架構概述，從微服務發微

985 碩士程序員，空窗 4 個月沒有 Offer！

一文搞懂 Spring 循環依賴

賽博鬥地主——使用大語言模型扮演Agent智能體玩牌類遊戲。

VScode右鍵打開(添加到右鍵)

記一次 .NET某工控視覺自動化系統卡死分析

WindowsServer--SQL Server搭建主從同步實現讀寫分離 - 事務性分發

GPU和CPU的相異同

c++ static、extern

軟件設計中的高內聚、低耦合

c++ 繼承/派生、訪問屬性、構造函數

SQL語言基本語句

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結