python字符編碼

近期接觸到python的編碼相關的東西，發現自己瞭解的不是太系統，故通過搜索資料做了一些總結。

字符編碼

字符串也是一種數據類型，但是，字符串比較特殊的是還有一個編碼問題。

我們知道，計算機內部，所有信息最終都是一個二進制值。每一個二進制位（bit）有0和1兩種狀態，因此八個二進制位就可以組合出256種狀態，這被稱爲一個字節（byte）。也就是說，一個字節一共可以用來表示256種不同的狀態，每一個狀態對應一個符號，就是256個符號，從00000000到11111111。

上個世紀60年代，美國製定了一套字符編碼，對英語字符與二進制位之間的關係，做了統一規定。這被稱爲 ASCII 碼，一直沿用至今。ASCII碼一共規定了128個字符的編碼，比如空格SPACE是32（二進制00100000），大寫的字母A是65（二進制01000001）。這128個符號（包括32個不能打印出來的控制符號），只佔用了一個字節的後面7位，最前面的一位統一規定爲0。

亞洲國家的文字，使用的符號就很多了，漢字就多達10萬左右。一個字節只能表示256種符號，肯定是不夠的，就必須使用多個字節表達一個符號。比如，簡體中文常見的編碼方式是GB2312，使用兩個字節表示一個漢字，所以理論上最多可以表示256x256=65536個符號。可以想得到的是，全世界有上百種語言，日本把日文編到Shift_JIS裏，韓國把韓文編到Euc-kr裏，各國有各國的標準，就會不可避免地出現衝突，結果就是，在多語言混合的文本中，顯示出來會有亂碼。

因此，Unicode應運而生。Unicode把所有語言都統一到一套編碼裏，這樣就不會再有亂碼問題了。Unicode是一個很大的集合，現在的規模可以容納100多萬個符號。每個符號的編碼都不一樣，比如，U+0639表示阿拉伯字母Ain，U+0041表示英語的大寫字母A，U+4E25表示漢字嚴。具體的符號對應表，可以查詢unicode.org。目前，現代操作系統和大多數編程語言都直接支持Unicode。

現在，捋一捋ASCII編碼和Unicode編碼的區別：ASCII編碼是1個字節，而Unicode編碼通常是2個字節。

字母A: 用ASCII編碼是十進制的65，二進制的01000001；
字符0: 用ASCII編碼是十進制的48，二進制的00110000，注意字符'0'和整數0是不同的；
漢字中: 已經超出了ASCII編碼的範圍，用Unicode編碼是十進制的20013，二進制的01001110 00101101。

你可以猜測，如果把ASCII編碼的A用Unicode編碼，只需要在前面補0就可以，因此，A的Unicode編碼是00000000 01000001。

這裏就有兩個嚴重的問題，第一個問題是，如何才能區別 Unicode 和 ASCII ？計算機怎麼知道三個字節表示一個符號，而不是分別表示三個符號呢？第二個問題是，我們已經知道，英文字母只用一個字節表示就夠了，如果Unicode統一規定，每個符號用三個或四個字節表示，那麼每個英文字母前都必然有二到三個字節是0，這對於存儲來說是極大的浪費，文本文件的大小會因此大出二三倍，這是無法接受的。

它們造成的結果是：

1）出現了 Unicode 的多種存儲方式，也就是說有許多種不同的二進制格式，可以用來表示 Unicode。
2）Unicode 在很長一段時間內無法推廣，直到互聯網的出現。

互聯網的普及，強烈要求出現一種統一的編碼方式。UTF-8 就是在互聯網上使用最廣的一種Unicode的實現方式。其他實現方式還包括 UTF-16（字符用兩個字節或四個字節表示）和UTF-32（字符用四個字節表示），不過在互聯網上基本不用。重複一遍，這裏的關係是，UTF-8 是 Unicode 的實現方式之一。

UTF-8 最大的一個特點，就是它是一種變長的編碼方式。它可以使用1~4個字節表示一個符號，根據不同的符號而變化字節長度。UTF-8 的編碼規則很簡單，只有二條：

1）對於單字節的符號，字節的第一位設爲0，後面7位爲這個符號的 Unicode 碼。因此對於英語字母，UTF-8 編碼和 ASCII 碼是相同的。
2）對於n字節的符號（n > 1），第一個字節的前n位都設爲1，第n + 1位設爲0，後面字節的前兩位一律設爲10。剩下的沒有提及的二進制位，全部爲這個符號的 Unicode 碼。

下表總結了編碼規則，字母x表示可用編碼的位。


Unicode符號範圍     |        UTF-8編碼方式
(十六進制)        |              （二進制）
----------------------+---------------------------------------------
0000 0000-0000 007F | 0xxxxxxx
0000 0080-0000 07FF | 110xxxxx 10xxxxxx
0000 0800-0000 FFFF | 1110xxxx 10xxxxxx 10xxxxxx
0001 0000-0010 FFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

跟據上表，解讀 UTF-8 編碼非常簡單。如果一個字節的第一位是0，則這個字節單獨就是一個字符；如果第一位是1，則連續有多少個1，就表示當前字符佔用多少個字節。

下面，還是以漢字嚴爲例，演示如何實現 UTF-8 編碼。

嚴的 Unicode 是4E25（100111000100101），根據上表，可以發現4E25處在第三行的範圍內（0000 0800 - 0000 FFFF），因此嚴的 UTF-8 編碼需要三個字節，即格式是1110xxxx 10xxxxxx 10xxxxxx。然後，從嚴的最後一個二進制位開始，依次從後向前填入格式中的x，多出的位補0。這樣就得到了，嚴的 UTF-8 編碼是11100100 10111000 10100101，轉換成十六進制就是E4B8A5。

python默認編碼

源代碼文件讀取默認編碼：

python2.x中，腳本源代碼文件讀寫的時候是默認使用ASCII來處理，由於ASCII不支持中文，故會報錯。故當我們的腳本源代碼中出現中文的時候，我們一般增加# -*- coding: utf-8 -*-來解決問題，標識用utf-8編碼來讀取文件。

python3.x中，腳本源代碼文件讀寫的時候是默認使用UTF-8來處理，對中文比較友好。

解釋器執行時對str類型使用的默認編碼：

python2.x: 
python中字符串的類型都屬於str類型，而當python2.x的解釋器內部執行的時候str默認也是使用ASCII編碼，可以通過sys.setdefaultencoding('utf-8')來改變默認編碼：

>>> '離離原上草，一歲一枯榮'.encode('utf-8')
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
UnicodeDecodeError: 'ascii' codec can't decode byte 0xe7 in position 0: ordinal not in range(128)
>>> sys.getdefaultencoding()
'ascii'
>>> import sys
>>> reload(sys)
<module 'sys' (built-in)>
>>> sys.setdefaultencoding('utf-8')
>>> '離離原上草，一歲一枯榮'.encode('utf-8')
'\xe7\xa6\xbb\xe7\xa6\xbb\xe5\x8e\x9f\xe4\xb8\x8a\xe8\x8d\x89\xef\xbc\x8c\xe4\xb8\x80\xe5\xb2\x81\xe4\xb8\x80\xe6\x9e\xaf\xe8\x8d\xa3'

python3.x: 
在python3.x中，str類型的編碼類型爲utf-8編碼：
In [16]: sys.getdefaultencoding()
Out[16]: 'utf-8'
In [17]: '離離原上草，一歲一枯榮'.encode('utf-8')
Out[17]: b'\xe7\xa6\xbb\xe7\xa6\xbb\xe5\x8e\x9f\xe4\xb8\x8a\xe8\x8d\x89\xef\xbc\x8c\xe4\xb8\x80\xe5\xb2\x81\xe4\xb8\x80\xe6\x9e\xaf\xe8\x8d\xa3'

我們發現如上python3的out[17]前面有一個b，標識輸出是一個bytes類型。這是因爲：Python3最重要的新特性之一是對字符串和二進制數據流做了明確的區分。文本總是Unicode，由str類型表示，二進制數據則由bytes類型表示。Python3的字符串類型是str，在內存中以Unicode表示，一個字符對應若干個字節。如果要在網絡上傳輸，或者保存到磁盤上，就需要把str變爲以字節爲單位的bytes。

Python3對bytes類型的數據用帶b前綴的單引號或雙引號表示：
x = b'ABC'
要注意區分'ABC'和b'ABC'，前者是str，後者雖然內容顯示得和前者一樣，但bytes的每個字符都只佔用一個字節。

以Unicode表示的str通過encode()方法可以編碼爲指定的bytes，例如：

>>> 'ABC'.encode('ascii')
b'ABC'
>>> '中文'.encode('utf-8')
b'\xe4\xb8\xad\xe6\x96\x87'
>>> '中文'.encode('ascii')
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128)

純英文的str可以用ASCII編碼爲bytes，內容是一樣的，含有中文的str可以用UTF-8編碼爲bytes。含有中文的str無法用ASCII編碼，因爲中文編碼的範圍超過了ASCII編碼的範圍，Python會報錯。在bytes中，無法顯示爲ASCII字符的字節，用\x##顯示。

反過來，如果我們從網絡或磁盤上讀取了字節流，那麼讀到的數據就是bytes。要把bytes變爲str，就需要用decode()方法：

>>> b'ABC'.decode('ascii')
'ABC'
>>> b'\xe4\xb8\xad\xe6\x96\x87'.decode('utf-8')
'中文'

如果bytes中包含無法解碼的字節，decode()方法會報錯：

>>> b'\xe4\xb8\xad\xff'.decode('utf-8')
Traceback (most recent call last):
  ...
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xff in position 3: invalid start byte
如果bytes中只有一小部分無效的字節，可以傳入errors='ignore'忽略錯誤的字節：
>>> b'\xe4\xb8\xad\xff'.decode('utf-8', errors='ignore')
'中'

要計算str包含多少個字符，可以用len()函數：

>>> len('ABC')
3
>>> len('中文')
2

len()函數計算的是str的字符數，如果換成bytes，len()函數就計算字節數：

>>> len(b'ABC')
3
>>> len(b'\xe4\xb8\xad\xe6\x96\x87')
6
>>> len('中文'.encode('utf-8'))
6

可見，1箇中文字符經過UTF-8編碼後通常會佔用3個字節，而1個英文字符只佔用1個字節。

參考

http://www.ruanyifeng.com/blog/2007/10/ascii_unicode_and_utf-8.html
https://www.liaoxuefeng.com/wiki/0014316089557264a6b348958f449949df42a6d3a2e542c000/001431664106267f12e9bef7ee14cf6a8776a479bdec9b9000

python字符編碼

字符編碼

python默認編碼

源代碼文件讀取默認編碼：

解釋器執行時對str類型使用的默認編碼：

參考

k8s ingress實現http/https7層和tcp四層代理

Elasticsearch淺析

python datetime和calendar模塊常用功能

python2.x和python3.x的區別

linux設置http/https proxy及忽略proxy的方法

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結