最近經常用到dataframe,經常用的時候百度,用完就忘了,下次用的時候還要再次百度,所以在這裏整理一下,以備後需。
1 dataframe列操作
首先新建一個dataframe,讀取文件
import pandas as pd
df_test = pd.DataFrame("D:/data/test.csv")
1.1 列命名
假設有五行
df_test.columns = ["id","name","age","gender","grade"]
2.2 列名更改
將id 改成doc_id,name改成doc_name,grade改成doc_grade,想改幾個列名就改幾個列名。
df_test.rename(columns={'id':'doc_id', 'name':'doc_name', 'grade':''doc_grade"}, inplace = True)
2.3 刪除列
刪除性別gender一列
df_test.drop(['gender'],axis=1)
2 dataframe行操作
2.1刪除重複行
當我們從一個dataframe中提取個別字段時,需要去除重複值。
df_test = df_test.drop_duplicates()
5 刪除列後重建索引
去重後索引會出現缺失,不便於之後的遍歷操作,所以配合重建索引使用。
df_test = df_test.reset_index(drop = "True")