在學爬蟲時遇到的,與漢字編碼有關。
具體是GET得到一串數據提取出了一段中文內容,然後直接print,發現失敗了。
將字符的二進制寫入了txt中,以utf-8形式打開是正常中文,於是嘗試對數據text.decode("utf-8"),結果謎一般的失敗了
但是我直接從直接存的文件裏讀出數據再decode是可以成功的,明明是一樣的數據==
於是我寫了個循環將字符串賦值
f=c.string #f是GET方式得到的數據
name=''
for i in f: name+=chr(ord(i)) #把f內容一個個存入name
print name.decode('utf-8') #decode
結果謎一樣的成功了
"安卓壁紙"就是那串中文字符