python3字符串字节转码相关问题

原創

2020-06-02 20:09

这得从一张图片说起：

就长上面这个样子，对了，不能正常显示的是中文。
身为老司机，一看就是字符编码的问题。
然后果断检查输入数据源什么编码，然后自信的.decode()。
然而并没有什么卵用，我记错了？测试一下：

没毛病啊，为毛不行？
去冲冲浪详细了解下是什么鬼：
首先了解下数据前面加u,r,b的含义

u/U:表示unicode字符串：不是仅仅是针对中文, 可以针对任何的字符串，代表是对字符串进行unicode编码。一般英文字符在使用各种编码下, 基本都可以正常解析, 所以一般不带u；但是中文, 必须表明所需编码, 否则一旦编码转换就会出现乱码。建议所有编码方式采用utf8

r/R:非转义的原始字符串： 与普通字符相比，其他相对特殊的字符，其中可能包含转义字符，即那些，反斜杠加上对应字母，表示对应的特殊含义的，比如最常见的”\n”表示换行，”\t”表示Tab等。而如果是以r开头，那么说明后面的字符，都是普通的字符了，即如果是“\n”那么表示一个反斜杠字符，一个字母n，而不是表示换行了。以r开头的字符，常用于正则表达式，对应着re模块。

b:bytes python3.x里默认的str是(py2.x里的)unicode, bytes是(py2.x)的str,b”“前缀代表的就是bytes python2.x里, b前缀没什么具体意义，只是为了兼容python3.x的这种写法 s => b'\u4e2d\u6587\u5b57\u7b26' print(s.decode('unicode_escape'))

搞一下：

成了！
深挖一下unicode-escape发现还有个string-escape，简单介绍下：

unicode-escape是对unicode编码的字节流，两个字节两个字节转义，并对每两个字节一起以16进制输出。
string-escape是对二进制的字节流，一个字节一个字节转义，并对每个字节以16进制输出

总结一下
unicode-escape解决对应本博文出现的问题，string-escape解决本博文出现问题的逆过程。

红字部分引用

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

python3字符串字节转码相关问题

那些最小化centos7安裝圖形化界面的坑

sqoop實例操作及詳細參數解析

python3字符串字節轉碼相關問題

python3將mongodb數據遷移至mysql

腳本執行命令實例詳解

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結