Python字符編碼問題

原創

bb6lo

2020-02-21 05:35

python對多國語言的處理是支持的很好的，它可以處理現在任意編碼的字符，這裏深入的研究一下python對多種不同語言的處理。

有一點需要清楚的是，當python要做編碼轉換的時候，會藉助於內部的編碼，轉換過程是這樣的：

原有編碼 -> 內部編碼 -> 目的編碼

python的內部是使用unicode來處理的，但是unicode的使用需要考慮的是它的編碼格式有兩種，一是UCS-2，它一共有65536個碼位，另一種是UCS-4，它有2147483648g個碼位。對於這兩種格式，python都是支持的，這個是在編譯時通過--enable- unicode=ucs2或--enable-unicode=ucs4來指定的。那麼我們自己默認安裝的python有的什麼編碼怎麼來確定呢？有一個辦法，就是通過sys.maxunicode的值來判斷：

import sys

print sys.maxunicode

如果輸出的值爲65535,那麼就是UCS-2,如果輸出是1114111就是UCS-4編碼。

我們要認識到一點：當一個字符串轉換爲內部編碼後，它就不是str類型了！它是unicode類型：

a = " 風捲殘雲 "

print type(a)

b = a.unicode(a, " gb2312 " )

print type(b)

輸出：

這個時候b可以方便的任意轉換爲其他編碼，比如轉換爲utf-8:

c = b.encode( " utf-8 " )

print c

c輸出的東西看起來是亂碼，那就對了，因爲是utf-8的字符串。

好了，該說說codecs模塊了，它和我上面說的概念是密切相關的。codecs專門用作編碼轉換，當然，其實通過它的接口是可以擴展到其他關於代碼方面的轉換的，這個東西這裏不涉及。

# -*- encoding: gb2312 -*-

import codecs, sys

print ' - ' * 60

# 創建gb2312編碼器

look = codecs.lookup( " gb2312 " )

# 創建utf-8編碼器

look2 = codecs.lookup( " utf-8 " )

a = " 我愛北京 "

print len(a), a

# 把a編碼爲內部的unicode, 但爲什麼方法名爲decode呢，我的理解是把gb2312的字符串解碼爲unicode

b = look.decode(a)

# 返回的b[0]是數據，b[1]是長度，這個時候的類型是unicode了

print b[ 1 ], b[0], type(b[0])

# 把內部編碼的unicode轉換爲gb2312編碼的字符串，encode方法會返回一個字符串類型

b2 = look.encode(b[0])

# 發現不一樣的地方了吧？轉換回來之後，字符串長度由14變爲了7! 現在的返回的長度纔是真正的字數，原來的是字節數

print b2[ 1 ], b2[0], type(b2[0])

# 雖然上面返回了字數，但並不意味着用len求b2[0]的長度就是7了，仍然還是14，僅僅是codecs.encode會統計字數

print len(b2[0])

上面的代碼就是codecs的使用，是最常見的用法。另外還有一個問題就是，如果我們處理的文件裏的字符編碼是其他類型的呢？這個讀取進行做處理也需要特殊的處理的。codecs也提供了方法.

# -*- encoding: gb2312 -*-

import codecs, sys

# 用codecs提供的open方法來指定打開的文件的語言編碼，它會在讀取的時候自動轉換爲內部unicode

bfile = codecs.open( " dddd.txt " , ' r ' , " big5 " )

# bfile = open("dddd.txt", 'r')

ss = bfile.read()

bfile.close()

# 輸出，這個時候看到的就是轉換後的結果。如果使用語言內建的open函數來打開文件，這裏看到的必定是亂碼

print ss, type(ss)

bb6lo

發佈了46 篇原創文章 · 獲贊 4 · 訪問量 4萬+

私信關注

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Python字符編碼問題

藍橋15屆stema編程題密碼鎖-動態規劃 C++和Python最後一道題

2021看雪SDC議題回顧 | SaTC：一種全新的物聯網設備漏洞自動化挖掘方法

C# 代碼學習

Kafka存儲機制

aws語音呼叫調用，告警電話

【轉】[C#] WebAPI 防止併發調用二（冥等性）

HTTP URL 詳解

得物 ZooKeeper SLA 也可以 99.99%

創新工具：2024年開發者必備的一款表格控件（二）

車牌識別控制檯可快速整合二次開發

著名PHP應用

在C/C++程序裏打印調用棧信息

LAMP環境php開發學習筆記

PHP語言是Web編程界的巨無霸

構建基本的嵌入式Linux根文件系統

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結