python3字符串字節轉碼相關問題

原創

2020-06-02 20:09

這得從一張圖片說起：

就長上面這個樣子，對了，不能正常顯示的是中文。
身爲老司機，一看就是字符編碼的問題。
然後果斷檢查輸入數據源什麼編碼，然後自信的.decode()。
然而並沒有什麼卵用，我記錯了？測試一下：

沒毛病啊，爲毛不行？
去沖沖浪詳細瞭解下是什麼鬼：
首先了解下數據前面加u,r,b的含義

u/U:表示unicode字符串：不是僅僅是針對中文, 可以針對任何的字符串，代表是對字符串進行unicode編碼。一般英文字符在使用各種編碼下, 基本都可以正常解析, 所以一般不帶u；但是中文, 必須表明所需編碼, 否則一旦編碼轉換就會出現亂碼。建議所有編碼方式採用utf8

r/R:非轉義的原始字符串： 與普通字符相比，其他相對特殊的字符，其中可能包含轉義字符，即那些，反斜槓加上對應字母，表示對應的特殊含義的，比如最常見的”\n”表示換行，”\t”表示Tab等。而如果是以r開頭，那麼說明後面的字符，都是普通的字符了，即如果是“\n”那麼表示一個反斜槓字符，一個字母n，而不是表示換行了。以r開頭的字符，常用於正則表達式，對應着re模塊。

b:bytes python3.x裏默認的str是(py2.x裏的)unicode, bytes是(py2.x)的str,b”“前綴代表的就是bytes python2.x裏, b前綴沒什麼具體意義，只是爲了兼容python3.x的這種寫法 s => b'\u4e2d\u6587\u5b57\u7b26' print(s.decode('unicode_escape'))

搞一下：

成了！
深挖一下unicode-escape發現還有個string-escape，簡單介紹下：

unicode-escape是對unicode編碼的字節流，兩個字節兩個字節轉義，並對每兩個字節一起以16進制輸出。
string-escape是對二進制的字節流，一個字節一個字節轉義，並對每個字節以16進制輸出

總結一下
unicode-escape解決對應本博文出現的問題，string-escape解決本博文出現問題的逆過程。

紅字部分引用

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

python3字符串字節轉碼相關問題

那些最小化centos7安裝圖形化界面的坑

sqoop實例操作及詳細參數解析

python3字符串字節轉碼相關問題

python3將mongodb數據遷移至mysql

腳本執行命令實例詳解

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結