pandas 最全入門學習筆記
讀取文件
方法
- 讀取csv: read_csv() 引
- 讀取excel: read_excel()
- 讀取製表符分割的table: read_table()
參數
- encoding 設置文件編碼
- header 設置表頭
- sep 設置分割符,sep可以是正則表達式
- names 設置列名
- index_col 設置行索引,可以是多個列組成的複合索引
- skip_rows 跳過的某些行
- na_values 將指定的值替換爲NaN,還可以指定列索引,只替換指定的列的值 eg: {‘idx’:[‘aaa’,’bbb’]}
寫入文件
- 寫入csv: to_csv()
- 寫入excel: to_excel()
- 寫入pickle文件: to_pickle()
基礎的數據定位操作
- 獲取所有列名 df.colunm
- 獲取指定的列名 df.column[]
- 獲取行索引 df.index
- 獲取指定的列的數據 df[‘列名’]
- 獲取指定的多個列的數據 df[[‘列名1’,’列名2’]]
- 獲取指定的行 df.loc[‘行索引’]
- 獲取指定行號的數據 df.iloc[行號] ,支持切片操作
- 獲取指定行號的數據的值(返回的是array) df.loc[‘行索引’].values
聚合操作
- sum()
- mean()
- avg()
- count()
- std()
- groupby() 指定列名,返回根據該列進行分組的結果的迭代器。
>>> for name,group in brand_cloth.groupby('Brand'):
... print(name)
... print(group)
...