Python unicode問題-如何根據引號的內容還原字符

今天寫個爬蟲, 獲取到的中間數據包含類似的unicode的編碼,當時一下是覺得挺簡單的,後來認真一看,情況有點不一樣,正常的unicode如下

>> s = u'中文'
>>> s
u'\u4e2d\u6587'

而獲取到的數據,只是引號內的內容,那麼問題來了,如何把數據轉換爲原來的樣子?

首先我們知道unicode字符串的格式是u'\xxx', 那麼只要能把格式轉換回來就可以了。看下面的例子

>>> st = '\u4e2d\u6587'
>>> """u'%s'""" % st
"u'\\u4e2d\\u6587'"
>>> un = """u'%s'""" % st
>>> un
"u'\\u4e2d\\u6587'"
>>> print eval(un)
中文

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章