使用pandas也可以畫圖
- plot方法
-data.cumsum().plot()
,plt.show()
- plot方法
pandas讀取數據
- 常用的數據類型是 .csv,.h5(hdf5)
- 讀取.csv文件:
pandas.read_csv(文件路徑,sep=',', name=列索引名子(默認None),usecols=指定讀取的列名(默認None))
- 讀取.h5文件:
pandas.read_hdf(文件路徑,key=讀取的鍵,mode=打開的方式,**kwargs)
hdf5
- hdf5是一種文件類型,適合存儲大量的數據,支持存儲多個鍵值。特點是支持壓縮,跨平臺。
pandas保存文件
- 保存文件到.csv格式。
DateFrame.to_csv()
- 保存文件到.h5格式:
DataFrame.to_hdf()
- 保存文件到.csv格式。
pandas的數據處理
基本處理
- 缺失值
判斷數據是否爲nan:pd.isnull(),pd.notnull() 處理方式: 1.存在缺失值nan: 1.1:刪除存在的缺失值:dropna(axis=‘rows’) 1.2:替換缺失值:fillna() 2.不存在缺失值nan 2.1先替換:df.replace() 2.2再進行缺失值的處理
- 日期
數據的離散化
- 數據的類型:連續型:在一個區間內可以無限劃分;離散型:分成若干個類,每個類不能再劃分
pd.get_dummies()
數據的合併
- 沿軸合併:
pd.concat
- 按照索引合併:
pd.join
- 按照指定列進行合併:
pd.merge
- 沿軸合併:
交叉表與透視表
- 交叉表:用於計算分組個數,尋找兩個列之間的關係 .
pd.crosstab(value1, value2)
- 透視表:
DateFrame.pivot_table([],index=[])
- 交叉表:用於計算分組個數,尋找兩個列之間的關係 .
數據的分組與聚合
- 分組:
DataFranme.groupby(by='')
- 分組後,可以用一些函數再將數據聚合起來:
- 函數有:count,sum,mean,median,std,var,min,max…
- 分組: