python的编码问题

原創

2020-02-22 10:10

基本概念

str和unicode都是basestring的子类
关系：
str -> decode('the_coding_of_str') -> unicode unicode -> encode('the_coding_you_want') -> str
区别：

>>> a='我'  # str
>>> b=u'我'  # unicode
>>> a
'\xce\xd2'
>>> b
u'\u6211'

str是字节串，由unicode经过编码(encode)后的字节组成的
unicode才是真正意义上的字符串，由字符组成
- 思路：搞明白要处理的是str还是unicode, 使用对的处理方法(str.decode/／or／/unicode.encode)
- 简单原则：不要对str使用encode，不要对unicode使用decode (事实上可以对str进行encode的，具体见最后，为了保证简单，不建议)

简记

encode是编码，decode是解码
编码：采用一定的编码格式将unicode字符转换成str字符的过程。即真实字符→二进制串（unicode→str）
解码：二进制串→真实字符（str→unicode）

事例

比如读入一行中文代码，要写入另一个文件时，需要解码与编码的变换：

p = "我在博客园“
w.write(p.decode('utf-8').encode('utf-8') + '\n')

解释：
汉字是已经经过编码的字符（只有unicode是原始字符串），所以如果想存入电脑系统不太容易直接识别，最保险的办法就是先解码成计算机都能够是别的unicode，再编码成utf-8的。

如果开头有coding:utf-8，　但是还是出现了编码问题，就可以再加上以下代码在开头即可：

import sys
reload(sys)
sys.setdefaultencoding('utf8')

解码实例：

try:
    print "unicode('我'):", unicode('我')
except UnicodeDecodeError as e:
    # 错误信息
    # 解析器试图用ascii编码来解码我们传入的参数，原因就是解析器会先将参数用默认的编码格式（这里是utf-8）进行编码，然后传给unicode()函数，
    print e

str本身是不能encode的，如果想要encode，先要转化成unicode。
- 解释：
  str.encode()实际上就等价于str.decode(sys.defaultencoding).encode().而sys.defaultencoding一般是ascii，它是不能用来编码中文字符的。
sd

kkevinyang

发布了35 篇原创文章 · 获赞 16 · 访问量 12万+

私信关注

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

python的编码问题

基本概念

简记

事例

再谈23种设计模式（3）：行为型模式（学习笔记）

Power Automate Desktop 安装完，登录后老是提示one driver 错误

微前端学习笔记(4):从微前端到微模块之EMP与hel-micro方案探索

微前端学习笔记（1）：微前端总体架构概述，从微服务发微

985 硕士程序员，空窗 4 个月没有 Offer！

一文搞懂 Spring 循环依赖

赛博斗地主——使用大语言模型扮演Agent智能体玩牌类游戏。

VScode右键打开(添加到右键)

记一次 .NET某工控视觉自动化系统卡死分析

WindowsServer--SQL Server搭建主从同步实现读写分离 - 事务性分发

前端入門DAY2-CSS

創建和部署flask中有關migrate可能遇到的問題

Tableau連接Hortonworks Hadoop Hive

python入門筆記(Day2)--默認/可變/關鍵字/命名字關鍵字參數

爬取吉他譜並生成pdf

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結