Pandas數據分析基礎:排序、基本統計、累計統計、相關分析

目錄

 一、數據的排序

(一)基本概念:

(二)排序

(1)操作索引的排序

 二、基本統計分析

三、數據的累計統計分析

四、相關分析


 一、數據的排序

(一)基本概念:

一組數據表達一個或多個含義,通過摘要(有損的地提取數據特徵的過程),得到:基本統計(含有排序)、分佈/累計統計、數據特徵(相關性、週期性)、數據挖掘(形成知識)

(二)排序

(1)操作索引的排序

.sort_index():在指定軸上根據索引進行排序,默認零軸(縱向)升序,,參數axis指定軸,ascending指定升序或降序。

import pandas as pd
import numpy as np
b = pd.DataFrame(np.arange(20).reshape(4,5), index=['b', 'a', 'c','d'])
print(b)print(b.sort_index())    #默認
print(b.sort_index(axis=1,ascending=False)  #一軸(橫向排序),降序

(2)操作數據的排序

.sort_values():在指定軸上根據數值進行排序,默認升序。
Series.sort_values():參數axis指定軸,ascending指定升序或降序。
DataFrame.sort_values():參數by指定axis上某個索引或索引列表,axis指定軸,ascending指定升序或降序。
*含有NaN的,無論升序降序,永遠排在排序的末尾

import pandas as pd
import numpy as np
b = pd.DataFrame(np.arange(20).reshape(4,5), index=['c', 'a', 'd','b'])
print(b.sort_values(2, ascending=False))
print(b.sort_values('a', axis=1,ascending=False))
a = pd.DataFrame(np.arange(12).reshape(3,4), index=['a', 'd','b'])
print((a+b).sort_values(2, ascending=False))

 二、基本統計分析

基本統計分析函數

適用於Series和DataFrame:sum,count,mean,median,var,std,min,max,describe

適用於Series:argmin,argmax,idxmin,idxmax。前兩者是自動索引,後兩者是自定義索引

*可以對describe對象使用索引獲取我們想要的數據特徵

三、數據的累計統計分析

對數據的前1-n個數據進行一些累計運算,減少for循環的使用,使數據運算更加靈活

適用於Series和DataFrame:cumsum,cumprod,cummax,cumin

適用於Series和DataFrame的滾動計算函數(以此計算相鄰w個元素的xx):.rolling(w).sum/mean/var/std/min/max

四、相關分析

  1. 相關性:正相關、負相關、不相關
  2. 如何度量相關性
  • 協方差(>0:正相關,<0:負相關,=0:無關)
  • pearson相關係數

相關性分析函數:

適用於Series和DataFrame:cov協方差矩陣,corr相關係數矩陣

 

 

 


 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章