python2.7 操作中文名文件亂碼等編碼問題

環境：python2.7
問題描述：操作具有中文名稱的文件的時候，會出現編碼報錯
比如：

>import pandas as pd
>df = df.read_csv(r"7w_白名單返回.csv")
輸出：
IOError: File 7w_鐧藉悕鍗曡繑鍥�csv does not exist

1、原因： 與python的字符處理機制有關

python2.x對字符的默認處理如下：
1、python2.x，默認所有的字符都是ASCII編碼格式；
2、在python2.x的執行內存中，任何編碼都被統一轉換(decode)爲Unicode格式來進行程序處理。

所以python2.x處理字符時候的工作原理是：

1、 python接收到的任何字符，都默認爲是ASCII編碼格式；
2、然後將ASCII格式轉變成Unicode格式，在內存裏進行操作，操作完成後，輸出結果，此時結果是Unicode格式；
3、再將Unicode格式默認轉變成ASCII格式輸出到工作臺。

所以，當原始字符不是ASCII編碼格式的時候，比如GBK、GB2312、UTF-8編碼格式等，python2.x進行處理的時候，就會報錯或者出現亂碼的情況。常見的例子就是進行文件讀取的時候。

進一步解釋，以下爲引用：

Python中的字符串的大概分爲爲str和Unicode兩種形式。其中str常用的編碼類型爲utf-8,gb2312,gbk等等，Python使用Unicode作爲編碼的基礎類型。str記錄的是字節數組，只是某種編碼的存儲格式，至於輸出到文件或是打印出來是什麼格式，完全取決於其解碼的編碼將他解碼成什麼樣子；Unicode是一種類似於符號集的抽象編碼，它只規定了符號的二進制代碼，卻沒有規定這個二進制代碼該如何存儲，也就是它只是一種內部表示，不能直接保存，所以存儲時需要規定一種存儲形式，比如utf-8等。

2、解決辦法

使用編碼轉換函數，將原始字符從任意編碼格式直接變成Unicode格式。

python中有編碼轉換的函數有：

decode(string) 實現string解碼成Unicode
encode(string) 實現Unicode編碼成string

上面的例子，使用下面這種處理方法，就不會報錯了：

import pandas as pd
df = pd.read_csv((r"7w_白名單返回.csv").decode("utf-8"))

字符串7w_白名單返回是utf-8的編碼格式，使用函數decode(“utf-8”)，直接變成Unicoode的編碼格式，再進行讀取操作，就沒問題了。

如果不知道字符串是什麼編碼格式，可以下面這個函數查看：

>import chardet
>chardet.detect(r'7w_白名單返回.csv')
輸出：
{'confidence': 0.9690625, 'encoding': 'utf-8', 'language': ''}
confidence字段，表示檢測的概率是1.0（即100%）。

python2.7 操作中文名文件亂碼等編碼問題

PyCharm v2017 1.5 更改背景顏色、菜單欄字體和大小、代碼部分字體大小、自動生成開頭的默認代碼段

編譯從GitHub上下載的代碼中的caffe

針對二分類任務的特徵工程——詳細步驟解析

win10安裝jupyter notebook詳細步驟+修改工作路徑

決策樹系列（三）：CART(分類迴歸樹)-詳細原理解析

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結