Pandas學習筆記(3) 數據存取與可視化

Pandas數據存取

Pandas支持包含csv,excel,hdf,sql,json,html,stata,sas,clipboard,pickle等格式的數據文件存儲,以統一的命名風格存取,以csv爲例

pd.read_csv()

  • 從csv文件中讀取數據,參數爲文件路徑
  • 返回值爲一個DataFrame
  • 會自動添加index(從0開始)

pd.to_csv()

  • 用於以指定格式保存數據,和read方法對應

數據可視化

Matplotlib 是Python自帶的繪圖工具包,功能十分強大,在使用Pandas進行數據分析時往往需要進行數據可視化,在此只記錄最基本的用法。

import matplotlib.pyplot as plt

隨機生成一組數據,每行爲一條記錄,每條記錄包含X,Y兩個值

data = pd.DataFrame(np.random.randn(100,2),columns=list("XY"))

plt.show()

展示繪製好的圖形,可視化的最後一步

pd.plot()

基本的線性繪圖函數,可以通過參數指定繪製的顏色、線型
具體參數可參閱這裏

data.plot()
plt.show()

效果

pd.plot.scatter()

散點圖繪製方法,需要指定x,y座標軸

data = pd.DataFrame(np.random.randn(100,2),columns=list("XY"))
data.plot.scatter(x='X',y='Y')
plt.show()

這裏寫圖片描述

除此之外,還可以用來繪製條形圖、餅圖、直方圖等統計圖像,在此不作介紹

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章