Pandas數據存取
Pandas支持包含csv,excel,hdf,sql,json,html,stata,sas,clipboard,pickle等格式的數據文件存儲,以統一的命名風格存取,以csv爲例
pd.read_csv()
- 從csv文件中讀取數據,參數爲文件路徑
- 返回值爲一個DataFrame
- 會自動添加index(從0開始)
pd.to_csv()
- 用於以指定格式保存數據,和read方法對應
數據可視化
Matplotlib 是Python自帶的繪圖工具包,功能十分強大,在使用Pandas進行數據分析時往往需要進行數據可視化,在此只記錄最基本的用法。
import matplotlib.pyplot as plt
隨機生成一組數據,每行爲一條記錄,每條記錄包含X,Y兩個值
data = pd.DataFrame(np.random.randn(100,2),columns=list("XY"))
plt.show()
展示繪製好的圖形,可視化的最後一步
pd.plot()
基本的線性繪圖函數,可以通過參數指定繪製的顏色、線型
具體參數可參閱這裏
data.plot()
plt.show()
pd.plot.scatter()
散點圖繪製方法,需要指定x,y座標軸
data = pd.DataFrame(np.random.randn(100,2),columns=list("XY"))
data.plot.scatter(x='X',y='Y')
plt.show()
除此之外,還可以用來繪製條形圖、餅圖、直方圖等統計圖像,在此不作介紹