常用python數據處理方法整合
dataframe格式的數據處理工作,有很多常用的也比較巧妙的小方法,現總結下,方便理解應用。
字段重命名:
df.rename(columns = {'A':'B'})
按字段排序:
df.sort_values(by = 'A',asending = Flase) #逆序選擇
重設索引列:
df.reset_index(drop=True)
選取行:
df = df.loc[df['A'] == 'cutoff',]
df = df[df['A'].notnull()
numpy字段元素級處理:
df['A'].apply(lambda x: x.strftime("%Y-%m-%d" ))
df['A'] = rule_monitor[['B','C']].apply(lambda x: float('{x:.2f}'.format(x = (x['A'] / x['B'])*100) if x['B'] > 0 else '0.00'),axis = 1 )
依據字段數據新增字段:
df['B'] = np.where(df['A'].str.contains('str'),1,0)
新建Dataframe,並且添加數據:
df1 = pd.DataFrame()
df2 = pd.DataFrame()
df1 = df1.append(df2)
分組:
grp1 = df.groupby(['code'])['code'].agg([pd.Series.count]).reset_index().rename(columns={'count':'nameA','code':'nameB'})
匹配:
df = pd.merge(df1,df2,left_on = 'rule_id',right_on = 'rule_ID',how = 'left')
缺失值填充:
df.fillna(0)