目錄
一、數據的排序
(一)基本概念:
一組數據表達一個或多個含義,通過摘要(有損的地提取數據特徵的過程),得到:基本統計(含有排序)、分佈/累計統計、數據特徵(相關性、週期性)、數據挖掘(形成知識)
(二)排序
(1)操作索引的排序
.sort_index():在指定軸上根據索引進行排序,默認零軸(縱向)升序,,參數axis指定軸,ascending指定升序或降序。
import pandas as pd
import numpy as np
b = pd.DataFrame(np.arange(20).reshape(4,5), index=['b', 'a', 'c','d'])
print(b)print(b.sort_index()) #默認
print(b.sort_index(axis=1,ascending=False) #一軸(橫向排序),降序
(2)操作數據的排序
.sort_values():在指定軸上根據數值進行排序,默認升序。
Series.sort_values():參數axis指定軸,ascending指定升序或降序。
DataFrame.sort_values():參數by指定axis上某個索引或索引列表,axis指定軸,ascending指定升序或降序。
*含有NaN的,無論升序降序,永遠排在排序的末尾
import pandas as pd
import numpy as np
b = pd.DataFrame(np.arange(20).reshape(4,5), index=['c', 'a', 'd','b'])
print(b.sort_values(2, ascending=False))
print(b.sort_values('a', axis=1,ascending=False))
a = pd.DataFrame(np.arange(12).reshape(3,4), index=['a', 'd','b'])
print((a+b).sort_values(2, ascending=False))
二、基本統計分析
基本統計分析函數
適用於Series和DataFrame:sum,count,mean,median,var,std,min,max,describe
適用於Series:argmin,argmax,idxmin,idxmax。前兩者是自動索引,後兩者是自定義索引
*可以對describe對象使用索引獲取我們想要的數據特徵
三、數據的累計統計分析
對數據的前1-n個數據進行一些累計運算,減少for循環的使用,使數據運算更加靈活
適用於Series和DataFrame:cumsum,cumprod,cummax,cumin
適用於Series和DataFrame的滾動計算函數(以此計算相鄰w個元素的xx):.rolling(w).sum/mean/var/std/min/max
四、相關分析
- 相關性:正相關、負相關、不相關
- 如何度量相關性
- 協方差(>0:正相關,<0:負相關,=0:無關)
- pearson相關係數
相關性分析函數:
適用於Series和DataFrame:cov協方差矩陣,corr相關係數矩陣