Python2 之汉字编码为unicode问题（即类似\xc3\xa4）

原創

2020-02-24 16:03

Python2中编码相关的问题很是让人蛋疼，特别是中文字符。
比如本文所述的中文网页GBK编码的诡异问题。

现象

例如：盲录职氓聭聩，其实网页里面正常的应该是会员

分析

接着上面的例子，会员这部分乱码通过repr()函数求值得到如下结果

\xc3\xa4\xc2\xbc\xc2\x9a\xc3\xa5\xc2\x91\xc2\x98

使用type()函数求值得到的结果为unicode

eval(repr())出来值为

盲录职氓聭聩

通过查表上述6个汉字对应
c3a4 c2bc c29a c3a5 c291 c298

而上面内容对应的UTF-8值就是会员

解决方法

相当诡异的是本身是unicode编码，却被当作GBK系列来解码，结果导致乱码。因此将这些字符先编码再解决解决问题。
encode('raw_unicode_escape').decode()

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Python：基础知识

1 安裝 1.1 Winsdows （1）訪問http://www/python.org/downloads/，下載最新版本Python；（2）雙擊安裝，使用默認設置即可；（3）安裝成功後，在開始菜單中找到IDLE（Py

2021-03-25 09:27:13

OpenCV读取中文路径图像

引言這幾天做點小東西，涉及到OpenCV讀取中文圖像的問題如果直接讀取中文路徑的圖像，往往返回[] import cv2 cv_im = cv2.imread(‘老乾媽.jpg’) 緣起偶然發現opencv 讀取圖

2020-07-08 01:09:29

ftp-client-1

使用語言：python 2.7 主要模塊：ftplib 主要使用一個while循環，沒有進行完整的異常處理，根據實際需求情況修改！ #coding=utf-8 from ftplib import FTP import sys,

2020-07-07 12:48:50

pyftpdlib代码初印象

添加用戶 from pyftpdlib.authorizers import DummyAuthorizer authorizer = DummyAuthorizer() authorizer.add_user('user',

2020-07-07 12:48:50

pyftpdlib代码实战

新建一個基本的ftp服務器 from pyftpdlib.authorizers import DummyAuthorizer from pyftpdlib.handlers import FTPHandler from pyft

2020-07-07 12:48:50

ftp-client-2

編程語言：python 2.7 主要模塊：ftplib 使用cmd模塊實現交互，沒有完整的異常處理，根據實際情況修改！ #coding=utf-8 from cmd import Cmd from ftplib import

2020-07-07 12:48:50

python脚本导出Elasticsearch数据到csv文件

以下是個導出es數據到csv文件的簡單腳本，腳本簡單易懂，主要解決了兩個問題： Elasticsearch數據含中文寫入csv文件會亂碼 unicode編碼的中文數據寫入csv文件會亂碼 from elasticsearch impor

2020-07-07 11:22:13

python基础之列表推导式

例1： >>> List=[x for x in range(10)] >>> List [0, 1, 2, 3, 4, 5, 6, 7, 8, 9] 等價於： >>> List=[] >>> for x in range(10):

2020-07-07 08:38:39

Python快乐之旅（基础知识汇总）

點擊就可以跳轉到相關文章了。一、Python語言介紹 Python語言介紹 Python語言的設計哲學編譯型語言和解釋型語言的區別 Python語言類型二、Python開發環境以及開發工具搭建Python開發環境 P

Liuyuelinjiayou

2020-07-06 18:06:36

从32阶矩阵中，选取任意阶矩阵的所有组合，然后求满秩

需求：從32階矩陣中，選取12行數據爲一組，組成12階矩陣，一共需要分爲 C3212C_{32}^{12}C3212 組，然後判斷所有組合的12階矩陣的秩是否都是滿秩。 import numpy as np from itert

2020-07-06 13:06:35

NIST随机性检测（python）

David Johnston 在 GitHub 上發佈了一個名爲 sp800_22_tests 的工具，網址是：https://github.com/dj-on-github/sp800_22_tests ，它是一個用 Pytho

2020-07-06 13:06:35

python中将一个文件转为二进制比特列表

需求：當我們讀取一個文件之後，將裏面的內容轉變爲二進制列表。用處：在python中可以將二進制列表用於隨機數檢測代碼展示： import os import sys def read_bits_from_file(file

2020-07-06 13:06:35

JSON文件存储

JSON通過對象和數組的組合來表示數據，構造簡單但是結構化程度非常高對象：在Javascript中是使用花括號{ }包裹起來的內容數組：在Javascript是方括號[ ]包裹起來的內容 json.loads()：將json文

weixin_41399020

2020-07-07 19:13:21

写爬虫所用到的工具类－－（１）

本文表述了寫爬蟲所用到的工具類 package Tool; import java.util.LinkedList; /** * 這是一個url隊列，獲取到的網站的href都應該放入這個隊裏之中，爲了保證每個鏈接只訪問一次，

2020-07-07 19:00:15

Java使用ＵＲＬ获取网页内容

使用URLConnection來獲取網頁的內容，發送get方法，如果所提供的是CSS代碼，需求所需要的結果需要用到正則表達式來獲取。 package Get; import Post.PostMethod; import ja

2020-07-07 19:00:15

24小時熱門文章

最新文章

最新評論文章