python显示中文乱码的几种情况encode decode

原創

2020-06-24 13:13

问题：最近在用vscode进行python编写的代码输除中文的时候出现乱码

一、VSCODE无法显示中文的问题

显示汉字乱码，类似下面这些情况：

str = '中文'
print(str)
print(str.encode('utf-8'))
print(str.encode('gbk'))

输出：

解决方法：菜单Debug->Open Configurations，打开launch.json

"env":{ "PYTHONIOENCODING":"gbk" }

二、python中文乱码问题

排除IDE环境影响，而又出现乱码的情况，是因为：
一般情况下window默认编码gbk，linux默认编码utf8。正常我们的输出如下：

#-*-coding:utf-8 -*-
str = '中文'
print(str)
print(str.encode('utf-8'))
print(str.encode('gbk'))

正确输出：

python编程中：系统编码，python编码，文件编码的概念。
（1）系统编码：默认写源码的编辑器的编码方式。它代表源码文件内的所有内容都是根据词方式编码成二进制码流。存入到磁盘中的。linux下通过locale命令查看。
（2）python编码：指python内设置的解码方式。如果不设定的话，python默认的是ascii解码方式。如果python源代码文件中不出现中文的话，这个地方怎么设定应该不会问题。
设定方法：在源码文件开头（一定是第一行）：#--coding:UTF-8--，源码文件的设置解码方式是UTF-8

三、具体分析

一般情况下输出乱码的原因就是没有按照系统解码的方式进行编码。

第一种：读取文件的字符，出现乱码原因：

如果文件内容用utf-8的编码保存的源文件。但是windows的本地默认编码是cp936，也就是gbk编码，所以在控制台直接打印utf-8的字符串当然是乱码了。
解决方法：
在控制台打印的地方用一个转码就ok了，打印的时候这么写：

print(myname.decode('utf-8').encode('gbk'))

第二种：python 使用ctypes调用动态库，输出汉字字符：

dll调用的情况：
比如定义结构体输出结果是char license[PLATE_NAME_MAX];，这时候要显示信息有汉字字符，则要加decode：

print("plate number :", djPDVarOut.license.decode('gbk'))

再举例来说：
比如print(s), s类型为str，linux系统下系统默认编码为utf8编码，s在输出前就应该编码为utf8。如果s为gbk编码就应该这样输出。print(s.decode(‘gbk’).encode(‘utf8’))才能输出中文。

第三种：就是直接给一个字符型数据，进行decode会报错。

decode针对的是以下类型的数据（倒数两行），而且一定要有**‘b’**

如果没有b就会被当做是str，则不能用decode，只能encode

另外：直接输出也是会出错，不管数据是gbk还是utf-8编码输入

解决办法：用raw_unicode_escape编码，给带上b符号

str_without_b = '\xe4\xb8\xad\xe6\x96\x87'
str = str_without_b.encode('raw_unicode_escape')
print('raw_unicode_escape 编码后：',str)
print('再用utf-8解码：',str.decode('utf-8'))

第四种：先用gbk编码encode，再用utf-8解码decode，会报错

因为gbk编码后的格式，无法用utf-8解码，可能越界。（我猜的）

整理的比较乱，最后给出几个参考链接：

https://www.cnblogs.com/dinghanhua/p/9933000.html
https://blog.csdn.net/joyfixing/article/details/79971667
https://blog.csdn.net/frozleaf/article/details/95304096
https://www.cnblogs.com/weixliu/p/3550642.html

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

python显示中文乱码的几种情况encode decode

一、VSCODE无法显示中文的问题

二、python中文乱码问题

三、具体分析

第一种：读取文件的字符，出现乱码原因：

第二种：python 使用ctypes调用动态库，输出汉字字符：

第三种：就是直接给一个字符型数据，进行decode会报错。

如果没有b就会被当做是str，则不能用decode，只能encode

第四种：先用gbk编码encode，再用utf-8解码decode，会报错

AI 画图真刺激，手把手教你如何用 ComfyUI 来画出刺激的图

公司刚入职了一名 Java 中级开发，短短 4 行代码居然凑齐了 3 个 bug！我哭了~~

公众号5月C#/.NET热文一览

git 下载大陆镜像地址

人臉系列：人臉檢測、人臉關鍵點定位、人臉優選、人臉對齊、人臉特徵提取、人臉跟蹤、人臉活體檢測（轉）

python顯示中文亂碼的幾種情況encode decode

軟件環境:win7 64位系統 + Halcon13.0 +MFC

Pandas處理時間數據

Python使用ctypes調用動態庫dll/so，關於opencv圖片Mat對應的數據uchar*

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結