python進階教程:在Python中使用base64模塊處理字符編碼的教程

@本文來源於公衆號:csdn2299,喜歡可以關注公衆號 程序員學府
Base64是一種用64個字符來表示任意二進制數據的方法。

用記事本打開exe、jpg、pdf這些文件時,我們都會看到一大堆亂碼,因爲二進制文件包含很多無法顯示和打印的字符,所以,如果要讓記事本這樣的文本處理軟件能處理二進制數據,就需要一個二進制到字符串的轉換方法。Base64是一種最常見的二進制編碼方法。

Base64的原理很簡單,首先,準備一個包含64個字符的數組:

['A', 'B', 'C', ... 'a', 'b', 'c', ... '0', '1', ... '+', '/']

然後,對二進制數據進行處理,每3個字節一組,一共是3x8=24bit,劃爲4組,每組正好6個bit:在這裏插入圖片描述
這樣我們得到4個數字作爲索引,然後查表,獲得相應的4個字符,就是編碼後的字符串。

所以,Base64編碼會把3字節的二進制數據編碼爲4字節的文本數據,長度增加33%,好處是編碼後的文本數據可以在郵件正文、網頁等直接顯示。

如果要編碼的二進制數據不是3的倍數,最後會剩下1個或2個字節怎麼辦?Base64用\x00字節在末尾補足後,再在編碼的末尾加上1個或2個=號,表示補了多少字節,解碼的時候,會自動去掉。

Python內置的base64可以直接進行base64的編解碼:

>>> import base64
>>> base64.b64encode('binary\x00string')
'YmluYXJ5AHN0cmluZw=='
>>> base64.b64decode('YmluYXJ5AHN0cmluZw==')
'binary\x00string'

由於標準的Base64編碼後可能出現字符+和/,在URL中就不能直接作爲參數,所以又有一種"url safe"的base64編碼,其實就是把字符+和/分別變成-和_:

>>> base64.b64encode('i\xb7\x1d\xfb\xef\xff')
'abcd++//'
>>> base64.urlsafe_b64encode('i\xb7\x1d\xfb\xef\xff')
'abcd--__'
>>> base64.urlsafe_b64decode('abcd--__')
'i\xb7\x1d\xfb\xef\xff'

還可以自己定義64個字符的排列順序,這樣就可以自定義Base64編碼,不過,通常情況下完全沒有必要。

Base64是一種通過查表的編碼方法,不能用於加密,即使使用自定義的編碼表也不行。

Base64適用於小段內容的編碼,比如數字證書籤名、Cookie的內容等。

由於=字符也可能出現在Base64編碼中,但=用在URL、Cookie裏面會造成歧義,所以,很多Base64編碼後會把=去掉:

# 標準Base64:
'abcd' -> 'YWJjZA=='
# 自動去掉=:
'abcd' -> 'YWJjZA'

去掉=後怎麼解碼呢?因爲Base64是把3個字節變爲4個字節,所以,Base64編碼的長度永遠是4的倍數,因此,需要加上=把Base64字符串的長度變爲4的倍數,就可以正常解碼了。

請寫一個能處理去掉=的base64解碼函數:

>>> base64.b64decode('YWJjZA==')
'abcd'
>>> base64.b64decode('YWJjZA')
Traceback (most recent call last):
 ...
TypeError: Incorrect padding
>>> safe_b64decode('YWJjZA')
'abcd'

小結

Base64是一種任意二進制到文本字符串的編碼方法,常用於在URL、Cookie、網頁中傳輸少量二進制數據。
非常感謝你的閱讀
大學的時候選擇了自學python,工作了發現吃了計算機基礎不好的虧,學歷不行這是

沒辦法的事,只能後天彌補,於是在編碼之外開啓了自己的逆襲之路,不斷的學習python核心知識,深

入的研習計算機基礎知識,整理好了,我放在我們的微信公衆號《程序員學府》,如果你也不甘平庸,

那就與我一起在編碼之外,不斷成長吧!

其實這裏不僅有技術,更有那些技術之外的東西,比如,如何

做一個精緻的程序員,而不是“屌絲”,程序員本身就是高貴的一種存在啊,難道不是嗎?點擊加入
想做你自己想成爲高尚人,加油!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章