乾貨分享:python自然語言編碼轉換模塊codecs介紹

@本文來源於公衆號:csdn2299,喜歡可以關注公衆號 程序員學府
這篇文章主要介紹了python自然語言編碼轉換模塊codecs介紹,codecs專門用作編碼轉換,通過它的接口是可以擴展到其他關於代碼方面的轉換,需要的朋友可以參考下
python對多國語言的處理是支持的很好的,它可以處理現在任意編碼的字符,這裏深入的研究一下python對多種不同語言的處理。

有一點需要清楚的是,當python要做編碼轉換的時候,會藉助於內部的編碼,轉換過程是這樣的:

> 原有編碼 -> 內部編碼 -> 目的編碼
python的內部是使用unicode來處理的,但是unicode的使用需要考慮的是它的編碼格式有兩種,一是UCS-2,它一共有65536個碼位,另一種是UCS-4,它有2147483648g個碼位。對於這兩種格式,python都是支持的,這個是在編譯時通過–enable-unicode=ucs2或–enable-unicode=ucs4來指定的。那麼我們自己默認安裝的python有的什麼編碼怎麼來確定呢?有一個辦法,就是通過sys.maxunicode的值來判斷:

import sys
print sys.maxunicode

如果輸出的值爲65535,那麼就是UCS-2,如果輸出是1114111就是UCS-4編碼。
我們要認識到一點:當一個字符串轉換爲內部編碼後,它就不是str類型了!它是unicode類型:

a = "風捲殘雲"
print type(a)
b = a.unicode(a, "gb2312")
print type(b)

輸出:

<type 'str'>
<type 'unicode'>

這個時候b可以方便的任意轉換爲其他編碼,比如轉換爲utf-8:

c = b.encode("utf-8")
print c

c輸出的東西看起來是亂碼,那就對了,因爲是utf-8的字符串。
好了,該說說codecs模塊了,它和我上面說的概念是密切相關的。codecs專門用作編碼轉換,當然,其實通過它的接口是可以擴展到其他關於代碼方面的轉換的,這個東西這裏不涉及。

#-*- encoding: gb2312 -*-
import codecs, sys
print '-'*60
# 創建gb2312編碼器
look  = codecs.lookup("gb2312")
# 創建utf-8編碼器
look2 = codecs.lookup("utf-8")

a = "我愛北京天安門"

print len(a), a
# 把a編碼爲內部的unicode, 但爲什麼方法名爲decode呢,我的理解是把gb2312的字符串解碼爲unicode
b = look.decode(a)
# 返回的b[0]是數據,b[1]是長度,這個時候的類型是unicode了
print b[1], b[0], type(b[0])
# 把內部編碼的unicode轉換爲gb2312編碼的字符串,encode方法會返回一個字符串類型
b2 = look.encode(b[0])
# 發現不一樣的地方了吧?轉換回來之後,字符串長度由14變爲了7! 現在的返回的長度纔是真正的字數,原來的是字節數
print b2[1], b2[0], type(b2[0])
# 雖然上面返回了字數,但並不意味着用len求b2[0]的長度就是7了,仍然還是14,僅僅是codecs.encode會統計字數
print len(b2[0])

上面的代碼就是codecs的使用,是最常見的用法。另外還有一個問題就是,如果我們處理的文件裏的字符編碼是其他類型的呢?這個讀取進行做處理也需要特殊的處理的。codecs也提供了方法.

#-*- encoding: gb2312 -*-
import codecs, sys
# 用codecs提供的open方法來指定打開的文件的語言編碼,它會在讀取的時候自動轉換爲內部unicode
bfile = codecs.open("dddd.txt", 'r', "big5")
#bfile = open("dddd.txt", 'r')

ss = bfile.read()
bfile.close()
# 輸出,這個時候看到的就是轉換後的結果。如果使用語言內建的open函數來打開文件,這裏看到的必定是亂碼
print ss, type(ss)

非常感謝你的閱讀
大學的時候選擇了自學python,工作了發現吃了計算機基礎不好的虧,學歷不行這是

沒辦法的事,只能後天彌補,於是在編碼之外開啓了自己的逆襲之路,不斷的學習python核心知識,深

入的研習計算機基礎知識,整理好了,我放在我們的微信公衆號《程序員學府》,如果你也不甘平庸,

那就與我一起在編碼之外,不斷成長吧!

其實這裏不僅有技術,更有那些技術之外的東西,比如,如何

做一個精緻的程序員,而不是“屌絲”,程序員本身就是高貴的一種存在啊,難道不是嗎?[點擊加入]

想做你自己想成爲高尚人,加油!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章