pandas_2

  • 使用pandas也可以畫圖

    • plot方法
      -data.cumsum().plot(),plt.show()
  • pandas讀取數據

    • 常用的數據類型是 .csv,.h5(hdf5)
    • 讀取.csv文件:pandas.read_csv(文件路徑,sep=',', name=列索引名子(默認None),usecols=指定讀取的列名(默認None))
    • 讀取.h5文件:pandas.read_hdf(文件路徑,key=讀取的鍵,mode=打開的方式,**kwargs)
  • hdf5

    • hdf5是一種文件類型,適合存儲大量的數據,支持存儲多個鍵值。特點是支持壓縮,跨平臺。
  • pandas保存文件

    • 保存文件到.csv格式。DateFrame.to_csv()
    • 保存文件到.h5格式:DataFrame.to_hdf()

pandas的數據處理

  • 基本處理

    • 缺失值
    判斷數據是否爲nan:pd.isnull(),pd.notnull()
    處理方式:
    1.存在缺失值nan:
    1.1:刪除存在的缺失值:dropna(axis=‘rows’)
    1.2:替換缺失值:fillna()
    2.不存在缺失值nan
    2.1先替換:df.replace()
    2.2再進行缺失值的處理
    • 日期
  • 數據的離散化

    • 數據的類型:連續型:在一個區間內可以無限劃分;離散型:分成若干個類,每個類不能再劃分
    • pd.get_dummies()
  • 數據的合併

    • 沿軸合併:pd.concat
    • 按照索引合併:pd.join
    • 按照指定列進行合併:pd.merge
  • 交叉表與透視表

    • 交叉表:用於計算分組個數,尋找兩個列之間的關係 .pd.crosstab(value1, value2)
    • 透視表:DateFrame.pivot_table([],index=[])
  • 數據的分組與聚合

    • 分組:DataFranme.groupby(by='')
    • 分組後,可以用一些函數再將數據聚合起來:
    • 函數有:count,sum,mean,median,std,var,min,max…
發佈了69 篇原創文章 · 獲贊 11 · 訪問量 1萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章