Python 3讀取文件解碼異常UnicodeDecodeError

Python 3讀取文件解碼異常UnicodeDecodeError

https://www.jianshu.com/p/9cb55b7173ae

1、遇到了解碼問題

今天在做中文語料庫的預處理工作,讀文件的時候提示解碼錯誤,UnicodeDecodeError,總結一下解決的辦法……

2、寫在前面

字符需要指定編碼格式,然後才能以字節的形式存儲到磁盤,下次打開文件,需要使用相同編碼格式進行解碼,纔不會出現亂碼的情況。

3、打開文件需要指定編碼格式

在Python(或者其它編程語言)中,打開文件時with open(file_url, 'r', edcoding='utf-8') as f:,需要指定編碼格式,默認編碼格式爲當前平臺的格式,我的是gbk,打開時指定的編碼格式要與存儲編碼格式相同。

4、判斷文件的編碼格式

在Python中可以使用chardet.detect函數判斷文件的編碼格式:



作者:就是楊宗
鏈接:https://www.jianshu.com/p/9cb55b7173ae
來源:簡書
著作權歸作者所有。商業轉載請聯繫作者獲得授權,非商業轉載請註明出處。

 

 

 

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章