python3字符串字节转码相关问题

这得从一张图片说起:
这里写图片描述
就长上面这个样子,对了,不能正常显示的是中文。
身为老司机,一看就是字符编码的问题。
然后果断检查输入数据源什么编码,然后自信的.decode()
然而并没有什么卵用,我记错了?测试一下:
这里写图片描述
没毛病啊,为毛不行?
去冲冲浪详细了解下是什么鬼:
首先了解下数据前面加u,r,b的含义

u/U:表示unicode字符串 :不是仅仅是针对中文, 可以针对任何的字符串,代表是对字符串进行unicode编码。 一般英文字符在使用各种编码下, 基本都可以正常解析, 所以一般不带u;但是中文, 必须表明所需编码, 否则一旦编码转换就会出现乱码。 建议所有编码方式采用utf8

r/R:非转义的原始字符串 : 与普通字符相比,其他相对特殊的字符,其中可能包含转义字符,即那些,反斜杠加上对应字母,表示对应的特殊含义的,比如最常见的”\n”表示换行,”\t”表示Tab等。而如果是以r开头,那么说明后面的字符,都是普通的字符了,即如果是“\n”那么表示一个反斜杠字符,一个字母n,而不是表示换行了。以r开头的字符,常用于正则表达式,对应着re模块。

b:bytes python3.x里默认的str是(py2.x里的)unicode, bytes是(py2.x)的str,b”“前缀代表的就是bytes python2.x里, b前缀没什么具体意义, 只是为了兼容python3.x的这种写法 s => b'\u4e2d\u6587\u5b57\u7b26' print(s.decode('unicode_escape'))

搞一下:
这里写图片描述
成了!
深挖一下unicode-escape发现还有个string-escape,简单介绍下:

unicode-escape是对unicode编码的字节流,两个字节两个字节转义,并对每两个字节一起以16进制输出。
string-escape是对二进制的字节流,一个字节一个字节转义,并对每个字节以16进制输出

总结一下
unicode-escape解决对应本博文出现的问题,string-escape解决本博文出现问题的逆过程。

红字部分引用

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章