pandas数据处理库

原創

2020-05-04 23:44

1、DataFrame属性

属性或方法	描述
DataFrame.index	DataFrame的index（行标签）
DataFrame.columns、DataFrame.columns.tolist()	DataFrame的列标签、将列名转换为list结构
DataFrame.dtypes	返回DataFrame的数据类型
DataFrame.select_dtypes(self[,include,exclude])	Return a subset of the
DataFrame.values	将DataFrame中实际数据作为ndarray返回
DataFrame.axes	返回一个列，行轴标签和列轴标签作为唯一的成员
DataFrame.ndim	数据维度大小，默认为2维
DataFrame.size	DataFrame中元素个数
DataFrame.shape	返回表示DataFrame的维度的元组
DataFrame.empty	如果DataFrame为空，返回True，任何轴的长度都为0
DataFrame.memory_usage(self[,index,deep])
DataFrame.T	转置行和列

2、indexing、iteration

方法	描述
DataFrame.head(self,n)	返回开头前n行，默认前5行
DataFrame.tail(self,n)	返回最后n行，默认最后5行
DataFrame.loc	使用column和index进行定位
DataFrame.iloc	即index locate，按位置进行定位，参数是整型
DataFrame.isin(self,values)
DataFrame.where(self,cond[,other,...])

3、计算/描述性统计函数

函数	描述
DataFrame.abs()	绝对值
DataFrame.min()、DataFrame.max()	最小值、最大值
DataFrame.mean()	均值
DataFrame.median()	中位数
DataFrame.sum()、DataFrame.prod()	和、乘积
DataFrame.std()、DataFrame.var()	标准差、方差
DataFrame.count()	非空数据量
DataFrame.cumsum()、DataFrame.cumprod()	累计总和、累计乘积
DataFrame.cummax()、DataFrame.cummin()	累计最大值、累计最小值
DataFrame.cov()	协方差，不包括NA/null值
DataFrame.corr()	计算相关系数，不包括NA/null值
DataFrame.corrwith()	计算相关系数，不包括NA/null值
DataFrame.describe()	描述性统计
DataFrame.prod()	乘积
DataFrame.product()	乘积
DataFrame.rank()	排序
DataFrame.round()	四舍五入
DataFrame.quantile()	返回给定分位数值
DataFrame.nunique()	不同值
DataFrame.skew()	计算偏度

3、缺失数据处理

函数	描述
DataFrame.dropna()	删除缺失值
DataFrame.fillna()	使用指定方法填充NA/NaN值

DataFrame.dropna(self, axis=0, how='any', thresh=None, subset=None, inplace=False)
参数：
axis: 0 or index 删除包含缺失值的行,1 or columns 删除包含缺失值的列,默认0；
how:any,all,默认any,any:只要含有NA,删除该行/列；all：只有该行/列均为NA才删除；
thresh：指定行/列具有非NA的数目，即至少有thresh个非NA时才保留；
subset:对特定的列进行缺失值删除处理；
inplace:True修改原有的DataFrame，默认False。

DataFrame.fillna(self, value=None, method=None, axis=None, inplace=False, limit=None, downcast=None) 
参数：
value: 变量、字典、Series，DataFrame；用于填充填充缺失值，或指定为每个索引（对于Series）或列（对于DataFrame）的缺失值使用字典/Series/DataFrame的值填充；
method: {'backfill', 'bfill', 'pad', 'ffill', None}, 默认None， pad/ffill表示向后填充空值，backfill/bfill表示向前填充空值；
axis: {0 or 'index', 1 or 'columns'}；
inplace: boolean, 默认为False；
limit: int, 默认为None，如果指定了方法，则这是连续的NaN值的前向/后向填充的最大数量。
downcast: dict, 默认None， 字典中的项为类型向下转换规则。

DataFrame.replace(self, to_replace=None, value=None, inplace=False, limit=None, regex=False, method='pad')
参数：

4、Reshaping, sorting, transposing

函数	描述
DataFrame.sort_values(by,axis=0,ascending=True,inplace=False)	按照值排序
DataFrame.sort_index(axis=0,ascending=False,inplace=False)	按照索引排序
DataFrame.reset_index(drop=True)	重置索引，删除原索引
DataFrame.pivot_table(index,columns,values,aggfunc="mean")	透视表

DataFrame.sort_values(by,axis=0,ascending=True,inplace=False,kind="quicksort",na_position="last",ignore_index=False)
参数：
by:str or list of str;如果axis=0,by="列名";如果axis=1,by="行名"；
axis: 0 or index,1 or columns,默认为0，按照索引排序，即纵向排序，为1横向排序；
ascending:布尔型，True升序，False降序；
inplace:布尔型，是否用排序后的数据框替换现有的数据框；
kind:排序方法，{"quicksort", "mergesort", "heapsort"}, 默认"quicksort"。
na_position:{"first", "last"}, 默认"last"，默认缺失值排在最后面
ignore_index:
return：DataFrame,如果inplace=False，返回排序后的DataFrame。

DataFrame.sort_index(self,axis=0,level=None,ascending=True,inplace=False,kind="quicksort",na_position="last",sort_remaining=True, ignore_index: bool = False)
参数：
axis: 0 按照行名排序，1按照列名排序；
level：默认None，否则按照给定的level顺序排列
ascending:布尔型，True升序，False降序；
inplace:布尔型，是否用排序后的数据框替原来有的数据框；
kind:排序方法，{"quicksort", "mergesort", "heapsort"}, 默认"quicksort"。
na_position:{"first", "last"}, 默认"last"，默认缺失值排在最后
ignore_index:
return：DataFrame,如果inplace=False，返回排序后的DataFrame。

DataFrame.pivot_table(self, values=None, index=None, columns=None, aggfunc='mean', fill_value=None, margins=False, dropna=True, margins_name='All', observed=False) → 'DataFrame'
参数：

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

pandas数据处理库

Python 潮流周刊#50：我最喜欢的 Python 3.13 新特性！

python--內置函數

seaborn.barplot柱狀圖詳說

樸素貝葉斯進行新聞分類

sklearn.model_selection中的train_test_split

sklearn之datasets

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結