- 数学统计和计算
- 统计函数
- 协方差
- Series对象之间的协方差计算
对不同长度的对象进行协方差计算,pandas会进行数据的自动对齐操作,即取得series_1的前八位元素与series_3的所有元素进行协方差运算 - DataFrame对象之间的协方差计算
- Series对象之间的协方差计算
- 相关系数
- 排序
- 协方差
- 窗口函数
- Rolling对象
- cumsum()函数
- 对Series和DataFrame对象计算累加和
- count() 函数
- 移动窗口内非NaN值的计数
- sum() 函数
- 移动窗口内的和
- mean() 函数
- 移动窗口内的平均值
- median() 函数
- 移动窗口内的中位数
- min() 函数
- 移动窗口内的最小值
- max() 函数
- 移动窗口内的最大值
- std() 函数
- 移动窗口内的无偏估计标准差(分母为n-1)
- var() 函数
- 移动窗口内的无偏估计方差(分母为n-1)
- skew() 函数
- 移动窗口内的偏度
- kurt() 函数
- 移动窗口内的峰度
- cov() 函数
- 移动窗口内的协方差
- corr() 函数
- 移动窗口内的相关系数
- apply() 函数
- 在移动窗口内使用普通(可自定义)数组函数
- 在移动窗口内使用普通(可自定义)数组函数
- cumsum()函数
- Expanding 对象
- 可看做特殊的window为数据长度,min_periods为1的Rolling对象
- 可看做特殊的window为数据长度,min_periods为1的Rolling对象
- EWM对象
- EWM对象产生指数加权窗口
- EWM对象产生指数加权窗口
- Rolling对象
- 统计函数
- 数学聚合和分组运算
- 拆分
-
和所选轴长度相同的数组(可为list,numpy的array或series对象)
list=['a','b'] df.groupby(list)
-
DataFrame某个列名的值或者列名的list
df.groupby('a') df.groupby(df['a']) # 以上两个表达式等价,df.groupby('a')是df.groupby(df['a'])的简便形式 df.groupby(df.loc['one'],axis=1)
-
参数为axis的标签的函数
def get_index_number(index): if index in ['one','two']: return 'small' else: return 'big' df.groupby(get_index_number,axis=1) # axis=1对列进行操作,axis=0对行进行操作
-
字典或者series,给出axis上的值与分组名之间的对应关系
group_list=['one','two','one','two','two'] group_series=pd.Series(group_list,index=df.index) df.groupby(group_series)
-
GroupBy对象
-
count 函数
- 每个组中非NA值的数量
-
sum/prod 函数
- 每个组中非NA值的和/积
-
mean 函数
- 每个组中非NA值的平均值
-
median 函数
- 每个组中非NA值的中位数
-
std/var 函数
- 每个组中无偏估计的标准差/方差
-
min/max 函数
- 每个组中非NA值的最小值/最大值
-
first/last 函数
- 每个组中第一个和最后一个非NA值
-
quantile 函数
- 每个组的样本分位数
-
describe 函数
- 描述组内数据的基本统计量
-
size 函数
- 计算每个组的规模
-
head 函数
- 获取每个组的前n行
-
fillna 函数
- 填充每个组中为空的值
-
agg() 函数
- 可使用自定义函数进行聚合操作
- 可使用自定义函数进行聚合操作
-
transform() 函数
- 将一个函数(也可为自定义函数)应用到所有的分组中,返回结果和原数据长度相同,同一个组的成员可以得到相同的值
- 将一个函数(也可为自定义函数)应用到所有的分组中,返回结果和原数据长度相同,同一个组的成员可以得到相同的值
-
apply() 函数
- 将数据对象分为多个组,对每个组调用传入的参数,最后进行组合
- 将数据对象分为多个组,对每个组调用传入的参数,最后进行组合
-
-
- 拆分
pandas进行数学计算和数据处理
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.