pandas进行数学计算和数据处理

pandas基础

  • 数学统计和计算
    • 统计函数
      • 协方差
        • Series对象之间的协方差计算
          在这里插入图片描述
          在这里插入图片描述
          对不同长度的对象进行协方差计算,pandas会进行数据的自动对齐操作,即取得series_1的前八位元素与series_3的所有元素进行协方差运算
        • DataFrame对象之间的协方差计算
          在这里插入图片描述
      • 相关系数
      • 排序
    • 窗口函数
      • Rolling对象
        在这里插入图片描述
        在这里插入图片描述
        • cumsum()函数
          • 对Series和DataFrame对象计算累加和
        • count() 函数
          • 移动窗口内非NaN值的计数
        • sum() 函数
          • 移动窗口内的和
        • mean() 函数
          • 移动窗口内的平均值
        • median() 函数
          • 移动窗口内的中位数
        • min() 函数
          • 移动窗口内的最小值
        • max() 函数
          • 移动窗口内的最大值
        • std() 函数
          • 移动窗口内的无偏估计标准差(分母为n-1)
        • var() 函数
          • 移动窗口内的无偏估计方差(分母为n-1)
        • skew() 函数
          • 移动窗口内的偏度
        • kurt() 函数
          • 移动窗口内的峰度
        • cov() 函数
          • 移动窗口内的协方差
        • corr() 函数
          • 移动窗口内的相关系数
        • apply() 函数
          • 在移动窗口内使用普通(可自定义)数组函数
            在这里插入图片描述
      • Expanding 对象
        • 可看做特殊的window为数据长度,min_periods为1的Rolling对象
          在这里插入图片描述
      • EWM对象
        • EWM对象产生指数加权窗口
          在这里插入图片描述
  • 数学聚合和分组运算
    • 拆分
      • 和所选轴长度相同的数组(可为list,numpy的array或series对象)

        list=['a','b']
        df.groupby(list)
        
      • DataFrame某个列名的值或者列名的list

        df.groupby('a')
        df.groupby(df['a'])
        # 以上两个表达式等价,df.groupby('a')是df.groupby(df['a'])的简便形式
        df.groupby(df.loc['one'],axis=1)
        
      • 参数为axis的标签的函数

        def get_index_number(index):
        	if index in ['one','two']:
        		return 'small'
        	else:
        		return 'big'
        df.groupby(get_index_number,axis=1)
        # axis=1对列进行操作,axis=0对行进行操作
        
      • 字典或者series,给出axis上的值与分组名之间的对应关系

        group_list=['one','two','one','two','two']
        group_series=pd.Series(group_list,index=df.index)
        df.groupby(group_series)
        
      • GroupBy对象

        • count 函数

          • 每个组中非NA值的数量
        • sum/prod 函数

          • 每个组中非NA值的和/积
        • mean 函数

          • 每个组中非NA值的平均值
        • median 函数

          • 每个组中非NA值的中位数
        • std/var 函数

          • 每个组中无偏估计的标准差/方差
        • min/max 函数

          • 每个组中非NA值的最小值/最大值
        • first/last 函数

          • 每个组中第一个和最后一个非NA值
        • quantile 函数

          • 每个组的样本分位数
        • describe 函数

          • 描述组内数据的基本统计量
        • size 函数

          • 计算每个组的规模
        • head 函数

          • 获取每个组的前n行
        • fillna 函数

          • 填充每个组中为空的值

          在这里插入图片描述

        • agg() 函数

          • 可使用自定义函数进行聚合操作
            在这里插入图片描述
        • transform() 函数

          • 将一个函数(也可为自定义函数)应用到所有的分组中,返回结果和原数据长度相同,同一个组的成员可以得到相同的值
            在这里插入图片描述
        • apply() 函数

          • 将数据对象分为多个组,对每个组调用传入的参数,最后进行组合
            在这里插入图片描述
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章