目录
1.pandas预处理的常用操作
链接的文章已经讲解的相对比较清楚了,包括:
(1)缺失值处理:dropna(),fillna()
(2)离散化:cut(),qcut()
(3)分组聚合:groupby()
(4)数据透视表:pivot_table()
(5)排序:sort_values()
https://blog.csdn.net/OYY_90/article/details/89114342?from=singlemessage&isappinstallend=0
2.个人补充内容
reindex
(index, method, fill_value, limit, level, copy, columns):重新索引函数(行索引)
index: 用作索引的新序列。(索引存在则保留,不存在则按照顺序创建,并以fill_value的值填充)
method: 插值的方式(pad/ffill:向前填充(原排列的最后一行); bfill/backfill: 向后填充(原排列的第一行))
columns: 列索引
limit: 限制插值的行数(要求index必须是升序排列)
dropna
(how, axis, thresh, subset): 删除缺失值
subset: 参数subset移出指定列为空的所有行数据
duplicated
(columns, keep):标识重复行
drop_duplicateds
(columns, keep): 删除重复行
columns: 列名
keep: 标识/删除的方式(keep=First: 标记/删除除第一行外的其他行; keep=last: 标记/删除除最后一行外的其他行; keep=False: 标记/删除所有行)