dataframe中对某一个cell进行分行
在工作中遇到类似下面的数据:
index names
0 延\t诞\t蜒
1 奄\t掩\t淹\t俺
2 彦\t颜\t谚
3 央\t秧\t映\t殃
4 扬\t杨\t汤\t场\t肠
任务:需要对每个cell进行分行,即每个字是1行。
处理思路:通过pandas读取为dataframe,通过dataframe的处理实现最终分行。
col=‘name’ # 目标列名
part1_edit['id'] = part_edit.index
part1_edit1[col].apply(lambda x:x.split('\t'))\ # 将cell值转成list列表
.apply(pd.Series)\ # 应用pd.Series方法,将list转换成series展开
.merge(part1_edit1, left_index=True, right_index=True)\ # 合并原dataframe
.drop([col], axis=1)\ # 去除原dataframe用于分行的列
.melt(['id'], value_name = "origin")\ # 根据‘id’名称展开
.dropna(subset=['origin'])\ # 空值处理
.drop(['variable'], axis=1) # 列删除
如果有更好的方法,欢迎补充。
参考:
https://www.mikulskibartosz.name/how-to-split-a-list-inside-a-dataframe-cell-into-rows-in-pandas/