ASCII，Unicode，UTF-8碼介紹

原創

2020-06-19 16:40

ASCII碼

ASCII 碼一共規定了128個字符的編碼，比如空格SPACE是32（二進制00100000），大寫的字母A是65（二進制01000001）。這128個符號（包括32個不能打印出來的控制符號），只佔用了一個字節的後面7位，最前面的一位統一規定爲0。

Unicode

Unicode，就像它的名字表示的，這是一種所有符號的編碼。
Unicode 當然是一個很大的集合，現在的規模可以容納100多萬個符號。每個符號的編碼都不一樣。

- - >> Unicode的問題

Unicode 只是一個符號集，它只規定了符號的二進制代碼，卻沒有規定這個二進制代碼應該如何存儲。
第一個問題是，如何才能區別 Unicode 和 ASCII ？
第二個問題是，我們已經知道，英文字母只用一個字節表示就夠了，如果 Unicode 統一規定，每個符號用三個或四個字節表示，那麼每個英文字母前都必然有二到三個字節是0，這對於存儲來說是極大的浪費，文本文件的大小會因此大出二三倍，這是無法接受的。
它們造成的結果是：

出現了 Unicode 的多種存儲方式，也就是說有許多種不同的二進制格式，可以用來表示 Unicode。
Unicode 在很長一段時間內無法推廣，直到互聯網的出現。

UTF- 8

UTF-8 就是在互聯網上使用最廣的一種 Unicode 的實現方式。其他實現方式還包括 UTF-16（字符用兩個字節或四個字節表示）和 UTF-32（字符用四個字節表示），不過在互聯網上基本不用。這裏的關係是，UTF-8 是 Unicode 的實現方式之一 。
UTF-8 最大的一個特點 : 它是一種變長的編碼方式。它可以使用1~4個字節表示一個符號，根據不同的符號而變化字節長度。
UTF-8 的編碼規則很簡單 :

對於單字節的符號，字節的第一位設爲0，後面7位爲這個符號的 Unicode 碼。因此對於英語字母，UTF-8 編碼和 ASCII 碼是相同的。
對於n字節的符號（n > 1），第一個字節的前n位都設爲1，第n + 1位設爲0，後面字節的前兩位一律設爲10。剩下的沒有提及的二進制位，全部爲這個符號的 Unicode 碼。

下表總結了編碼規則，字母x表示可用編碼的位。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Unicode詳解(UCS-2,UCS-4,UTF-8,UTF-16,UTF-32)

轉載來自：http://blog.charlee.li/unicode-intro/ 基本知識介紹Unicode之前，首先要講解一些基礎知識。雖然跟Unicode沒有直接的關係，但想弄明白Unicode，沒這些還真不行。字節和

2020-07-04 05:53:19

一文搞懂字符編碼與解碼

最近遇到一個關於字符編碼與解碼的問題，使用GB2312保存了一個文件，然後使用vscode打開的時候，發現中文字符全是亂碼了。爲什麼會出現這個問題？研究了一下編碼與解碼。文件在計算機上存儲的都是二進制。顧名思

2020-07-01 12:26:47

idea創建javaee在web目錄下引用jquery的路徑問題

起因一開始引入jQuery後，html老是顯示未引入的問題，後來弄了半天發現是相對路徑的問題，我以爲引入文件的時候，編輯器會自動幫我顯示本目錄下的文件，所以直接一路enter下去。結果這是錯誤的例子：這是正確的用法：

2020-07-07 15:57:06

無論心有多累　都不應該向別人發脾氣

不知從何時起，每當心煩意亂的時候就喜歡發脾氣，而對象往往是那些最在乎你，最關心你的人，說白了無非就是因爲別人太在乎你，太寵愛你而已，而自己因爲知

2020-07-01 15:59:26

Xml文件的解析

Xml文件的解析參考自 https://www.ibm.com/developerworks/cn/xml/dm-1208gub/index.html 在之前項目中接觸到解析XML，在使用Elasticsearch時導入數據時遇到了大數

2020-06-30 11:06:59

Java的字符表示格式

Java的字符表示格式是什麼？ JVM的設計者當初決定JVM中所有字符的表示形式時，是不允許使用各種編碼方式的字符並存的。原因：如果內存中的Java字符可以以GB2312、UTF-16、BIG5等各種編碼存在，那麼對於開發者來說，連最基

2020-07-05 15:38:53

C++ Unicode 轉UTF-8 輸出中文

Unicode 轉UTF-8 輸出中文需求一中文 ”你好啊“ ----------unicode----------> \u4F60\u597D\u554A unicode編碼字符串轉中文。例： “4F60597D554A

2020-07-01 09:58:16

Unicode和ANSI編碼環境下編譯字符串的問題求解

利用C/C++編程時，常常因爲對字符串的不規範的操作導致許多讓初學者感到莫名其妙的編譯錯誤，查來查去，原來是編碼方式的問題，解決辦法是在 “項目” ->“屬性”中設置使用適當的字符集，如把原來的“Use Unicode Character

怎么没暖气

2020-06-30 10:17:44

HTML文件中文亂碼問題

在用sublime text 2編寫的html文件放在瀏覽器中打開時，經常會發生中文顯示亂碼問題。下面是我在網上找到的解決方案：首先聲明：這一方法前提是sublime text 2的安裝路徑沒有中文字符，且系統路徑的%username

2020-07-06 10:42:31

Python:UnicodeDecodeError: ‘utf-8‘ codec can‘t decode byte 0x9c in position 3: invalid start byte

SOAP 之 base64Binary bs64binary->str print(type(config.scriptCheckSum)) print(config.scriptCheckSum) import base64

2020-07-07 08:06:47

IE瀏覽器：jQuery.Deferred exception: 對象不支持“isNaN”屬性或方法 TypeError: 對象不支持“isNaN”屬性或方法

IE瀏覽器的容錯性和兼容性，差的一批，兼容起來真是難受 HTML1300: 進行了導航。 to_index SCRIPT1002: 語法錯誤 report_check_middle.js (897,44) SCRIPT1002: 語法

2020-07-07 08:06:47

IE瀏覽器：encodeURI的使用，href=““或者window.open()裏面的請求鏈接如包含漢字或特殊字符會亂碼

在不使用encodeURI()的時候，正常的IE瀏覽器裏面的herf裏面如果帶有漢字或者特殊字符，傳到後臺就是亂碼的目錄前端未轉碼之前後臺接收參數當在前端用encodeURI進行轉碼之後控制檯輸出對比後臺接收參數前端未轉碼之前

2020-07-07 08:06:47

字符編碼（一）

字符編碼（一）字符必須編碼後才能被計算機處理，計算機使用的缺省編碼方式就是計算機的內碼。早期的計算機使用七位ASCII編碼，爲了處理漢字，程序員設計了用於簡體中文的GB2312和用於繁體中文的big5。 GB2312（1980年）共收

2020-07-04 15:08:48

CentOS修改系統默認編碼（命令行方式）

在安裝centOS時選擇了安裝中文版，但是在用ssh操作時，發現有中文亂碼，因爲大部分時候ssh不能很好的支持中文這時候我們需要修改一下系統編碼系統編碼在/etc/sysconfig/i18n文件中使用編輯器將該文件中的字符編

2020-06-29 10:42:27

字符編碼總結：ASCII，Unicode和UTF-8

轉載自:http://www.cnblogs.com/chenwenbiao/archive/2011/08/11/2134503.html 今天中午，我突然想搞清楚Unicode和UTF-8之間的關係，於是就開始在網上查資料。

2020-06-28 22:08:28

24小時熱門文章

最新文章

最新評論文章