pandas进行数学计算和数据处理

pandas基础

数学统计和计算
- 统计函数
  - 协方差
    - Series对象之间的协方差计算
      
      对不同长度的对象进行协方差计算，pandas会进行数据的自动对齐操作，即取得series_1的前八位元素与series_3的所有元素进行协方差运算
    - DataFrame对象之间的协方差计算
  - 相关系数
  - 排序
- 窗口函数
  - Rolling对象
    - cumsum()函数
      - 对Series和DataFrame对象计算累加和
    - count() 函数
      - 移动窗口内非NaN值的计数
    - sum() 函数
      - 移动窗口内的和
    - mean() 函数
      - 移动窗口内的平均值
    - median() 函数
      - 移动窗口内的中位数
    - min() 函数
      - 移动窗口内的最小值
    - max() 函数
      - 移动窗口内的最大值
    - std() 函数
      - 移动窗口内的无偏估计标准差（分母为n-1）
    - var() 函数
      - 移动窗口内的无偏估计方差（分母为n-1）
    - skew() 函数
      - 移动窗口内的偏度
    - kurt() 函数
      - 移动窗口内的峰度
    - cov() 函数
      - 移动窗口内的协方差
    - corr() 函数
      - 移动窗口内的相关系数
    - apply() 函数
      - 在移动窗口内使用普通（可自定义）数组函数
  - Expanding 对象
    - 可看做特殊的window为数据长度，min_periods为1的Rolling对象
  - EWM对象
    - EWM对象产生指数加权窗口
数学聚合和分组运算
- 拆分
  - 和所选轴长度相同的数组（可为list，numpy的array或series对象）
```
list=['a','b']
df.groupby(list)
```
  - DataFrame某个列名的值或者列名的list
```
df.groupby('a')
df.groupby(df['a'])
# 以上两个表达式等价，df.groupby('a')是df.groupby(df['a'])的简便形式
df.groupby(df.loc['one'],axis=1)
```
  - 参数为axis的标签的函数
```
def get_index_number(index):
	if index in ['one','two']:
		return 'small'
	else:
		return 'big'
df.groupby(get_index_number,axis=1)
# axis=1对列进行操作，axis=0对行进行操作
```
  - 字典或者series，给出axis上的值与分组名之间的对应关系
```
group_list=['one','two','one','two','two']
group_series=pd.Series(group_list,index=df.index)
df.groupby(group_series)
```
  - GroupBy对象
    - count 函数
      - 每个组中非NA值的数量
    - sum/prod 函数
      - 每个组中非NA值的和/积
    - mean 函数
      - 每个组中非NA值的平均值
    - median 函数
      - 每个组中非NA值的中位数
    - std/var 函数
      - 每个组中无偏估计的标准差/方差
    - min/max 函数
      - 每个组中非NA值的最小值/最大值
    - first/last 函数
      - 每个组中第一个和最后一个非NA值
    - quantile 函数
      - 每个组的样本分位数
    - describe 函数
      - 描述组内数据的基本统计量
    - size 函数
      - 计算每个组的规模
    - head 函数
      - 获取每个组的前n行
    - fillna 函数
      - 填充每个组中为空的值
    - agg() 函数
      - 可使用自定义函数进行聚合操作
    - transform() 函数
      - 将一个函数（也可为自定义函数）应用到所有的分组中，返回结果和原数据长度相同，同一个组的成员可以得到相同的值
    - apply() 函数
      - 将数据对象分为多个组，对每个组调用传入的参数，最后进行组合