pandas 最全入門學習筆記

pandas 最全入門學習筆記

讀取文件

方法
- 讀取csv: read_csv() 引
- 讀取excel: read_excel()
- 讀取製表符分割的table: read_table()

參數
- encoding 設置文件編碼
- header 設置表頭
- sep 設置分割符,sep可以是正則表達式
- names 設置列名
- index_col 設置行索引,可以是多個列組成的複合索引
- skip_rows 跳過的某些行
- na_values 將指定的值替換爲NaN,還可以指定列索引,只替換指定的列的值 eg: {‘idx’:[‘aaa’,’bbb’]}

寫入文件

  • 寫入csv: to_csv()
  • 寫入excel: to_excel()
  • 寫入pickle文件: to_pickle()

基礎的數據定位操作

  • 獲取所有列名 df.colunm
  • 獲取指定的列名 df.column[]
  • 獲取行索引 df.index
  • 獲取指定的列的數據 df[‘列名’]
  • 獲取指定的多個列的數據 df[[‘列名1’,’列名2’]]
  • 獲取指定的行 df.loc[‘行索引’]
  • 獲取指定行號的數據 df.iloc[行號] ,支持切片操作
  • 獲取指定行號的數據的值(返回的是array) df.loc[‘行索引’].values

聚合操作

  • sum()
  • mean()
  • avg()
  • count()
  • std()
  • groupby() 指定列名,返回根據該列進行分組的結果的迭代器。
>>> for name,group in brand_cloth.groupby('Brand'):
...     print(name)
...     print(group)
... 
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章