Pandas排序(主要研究對DataFrame的排序):
.sort_index(axis,ascending)方法對指定軸的索引進行排序;
未給定參數的情況下,默認對0軸進行升序操作。左側列爲0軸,上行排爲1軸。
.sort_values(by,axis=0,ascending=True)方法對值進行排序;
by是給定的一個索引。
這裏需要注意的是,若排序方向爲axis=0,axis參數可以缺省;排序方向爲axis=1,axis參數不能缺省。
NaN統一放在排序的末尾。
基本統計分析函數:
適用於DataFrame,Series類型:
.sum() .count() .mean() .median() .var() .std().min() .max()其中DataFrame返回爲Series類型,Series返回爲零維。
僅適用於Series類型:
.argmin() .argmax()返回自動索引位置
.idxmin() .idxmax()返回自定義索引位置
.describe()方法:
Series返回一個Series類型:
因此可以索引:Se.describe()[‘count’]獲得count
DataFrame返回一個DataFrame類型:
默認按照0軸進行統計,需要獲得某一個統計值,可以使用loa=c.discribe().iloc(‘max’)即可。
複習:對DataFrame進行索引
想要獲得max一行:maxline=c.describe().iloc[‘max’]
想要獲得0一列:line0=c.describe()[0]
而若還想獲得按照1軸的統計,則可以使用DataFrame中的transpose()方法獲得DtaFrame的轉置。
累計統計分析函數:適用於Series DataFrame
.cumsum() .cumprod() .cummax() .cummin()
沿着列方向的累加值。
其他函數同理滾動計算函數:
計算窗口內相應的統計值.rolling(w).sum() .rolling(w).mean() .rolling(w).var(),std,min,max
NaN與任何數運算仍然爲NaN
計算二者的相關性:
.corr()可以計算兩個Series的相關性a.corr(b)返回二者的相關係數。