pandas進行數學計算和數據處理

pandas基礎

  • 數學統計和計算
    • 統計函數
      • 協方差
        • Series對象之間的協方差計算
          在這裏插入圖片描述
          在這裏插入圖片描述
          對不同長度的對象進行協方差計算,pandas會進行數據的自動對齊操作,即取得series_1的前八位元素與series_3的所有元素進行協方差運算
        • DataFrame對象之間的協方差計算
          在這裏插入圖片描述
      • 相關係數
      • 排序
    • 窗口函數
      • Rolling對象
        在這裏插入圖片描述
        在這裏插入圖片描述
        • cumsum()函數
          • 對Series和DataFrame對象計算累加和
        • count() 函數
          • 移動窗口內非NaN值的計數
        • sum() 函數
          • 移動窗口內的和
        • mean() 函數
          • 移動窗口內的平均值
        • median() 函數
          • 移動窗口內的中位數
        • min() 函數
          • 移動窗口內的最小值
        • max() 函數
          • 移動窗口內的最大值
        • std() 函數
          • 移動窗口內的無偏估計標準差(分母爲n-1)
        • var() 函數
          • 移動窗口內的無偏估計方差(分母爲n-1)
        • skew() 函數
          • 移動窗口內的偏度
        • kurt() 函數
          • 移動窗口內的峯度
        • cov() 函數
          • 移動窗口內的協方差
        • corr() 函數
          • 移動窗口內的相關係數
        • apply() 函數
          • 在移動窗口內使用普通(可自定義)數組函數
            在這裏插入圖片描述
      • Expanding 對象
        • 可看做特殊的window爲數據長度,min_periods爲1的Rolling對象
          在這裏插入圖片描述
      • EWM對象
        • EWM對象產生指數加權窗口
          在這裏插入圖片描述
  • 數學聚合和分組運算
    • 拆分
      • 和所選軸長度相同的數組(可爲list,numpy的array或series對象)

        list=['a','b']
        df.groupby(list)
        
      • DataFrame某個列名的值或者列名的list

        df.groupby('a')
        df.groupby(df['a'])
        # 以上兩個表達式等價,df.groupby('a')是df.groupby(df['a'])的簡便形式
        df.groupby(df.loc['one'],axis=1)
        
      • 參數爲axis的標籤的函數

        def get_index_number(index):
        	if index in ['one','two']:
        		return 'small'
        	else:
        		return 'big'
        df.groupby(get_index_number,axis=1)
        # axis=1對列進行操作,axis=0對行進行操作
        
      • 字典或者series,給出axis上的值與分組名之間的對應關係

        group_list=['one','two','one','two','two']
        group_series=pd.Series(group_list,index=df.index)
        df.groupby(group_series)
        
      • GroupBy對象

        • count 函數

          • 每個組中非NA值的數量
        • sum/prod 函數

          • 每個組中非NA值的和/積
        • mean 函數

          • 每個組中非NA值的平均值
        • median 函數

          • 每個組中非NA值的中位數
        • std/var 函數

          • 每個組中無偏估計的標準差/方差
        • min/max 函數

          • 每個組中非NA值的最小值/最大值
        • first/last 函數

          • 每個組中第一個和最後一個非NA值
        • quantile 函數

          • 每個組的樣本分位數
        • describe 函數

          • 描述組內數據的基本統計量
        • size 函數

          • 計算每個組的規模
        • head 函數

          • 獲取每個組的前n行
        • fillna 函數

          • 填充每個組中爲空的值

          在這裏插入圖片描述

        • agg() 函數

          • 可使用自定義函數進行聚合操作
            在這裏插入圖片描述
        • transform() 函數

          • 將一個函數(也可爲自定義函數)應用到所有的分組中,返回結果和原數據長度相同,同一個組的成員可以得到相同的值
            在這裏插入圖片描述
        • apply() 函數

          • 將數據對象分爲多個組,對每個組調用傳入的參數,最後進行組合
            在這裏插入圖片描述
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章