使用pandas讀取含有中文的CSV文件

Python2對中文支持不好,在使用pandas讀取含有中文的CSV文件時尤其需要注意,下面就記錄一下我的使用經歷。

我的CSV文件含有中文字段和中文數據,尤其是表頭,全是中文,其中有一列叫做 “經度(度)”,我想使用pandas在Python裏面直接用df["經度(度)"]來訪問這一列數據,但是遇到了一些編碼格式上的小問題,現將解決過程做以下記錄。

1、首先,確定CSV文件的編碼格式,以便在調用pandas.read_csv時指定編碼參數,我的文件是gbk編碼方式,因此通過以下代碼來讀取CSV文件。

df = pd.read_csv(csv_file, encoding="gbk")

2、在Python腳本的最前面添加以下代碼,以指定該腳本處理數據時所使用的編碼格式,需要注意的是一定要在最前面加這句話,否則可能會有問題。

# -*- coding: utf-8 -*-

3、如果使用的是PyCharm,還需要進行腳本文件的編碼格式設置:

進入 File -> Settings,找到 Editor -> File encodings,將 Global Encoding 和 Project Encoding ,以及Default encoding for properties files 設置爲utf-8

 

4、在使用列名來訪問DataFrame裏面的數據時,對於中文列名,應該在列名前面加'u',表示後面跟的字符串以unicode格式存儲,如下所示:

print(df[u"經度(度)"])

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章