python3編碼問題總結

原創

2020-06-23 04:56

python 讀取文本文件，報出gbk問題

問題如下：

UnicodeDecodeError: 'gbk' codec can't decode byte 0xaa in position 225: illegal multibyte sequence

因爲如果你沒有指定打開文件編碼方式的話，windows默認是gbk編碼打開（Linux默認爲utf-8編碼），而你的文件是utf-8編碼，

所以有的字符gbk無法識別也就是:can't decode 某某位置的字節碼

解決辦法就是:

指定打開文件的編碼方式，

with open("data.txt",'r',encoding='utf-8') as data:

題外話：因爲文件在磁盤是以二進制的形式存儲的，人要打開，要能看懂，必須變成人能看懂的形式，這就是編碼encode，python編碼以前使用的是ASCII編碼，現在都是使用的Unicode編碼集(python3中str就爲Unicode碼)，他是一箇中間碼，注意是中間碼而不是特指哪個編碼方式，utf-8 或者gbk都是Unicode編碼集的變形形式。想要將一個編碼形式的文件變成另一個編碼形式，就要使用中間碼Unicode作爲編碼形式轉換的橋樑，這就是解碼decode，解碼爲中間碼Unicode。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

python3編碼問題總結

C語言--右移左移

12款高效開源Wiki系統推薦，打造團隊知識管理利器

一個開源且全面的C#算法實戰教程

dotnet 基於 DirectML 控制檯運行 Phi-3 模型

自定義MyBatis插件

一款.NET開源、功能強大、跨平臺的繪圖庫 - OxyPlot

常用的 Git 指令

sm4加密工具類

用戶模塊之用戶登錄

Cookie跨域小知識

使用celery完成頁面靜態化中的celery版本問題

自定義django文件存儲系統結合利用FastDfs上傳文件中出現的問題

4-1 tornado提供了哪些功能

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結