pandas 學習筆記二

原創

2018-12-29 14:08

筆記來源：利用python進行數據分析【Wes Mckinnney著，唐學韜等譯】

一、彙總和計算描述統計

pandas對象擁有一組常用的數學和統計方法，大部分屬於約簡和彙總統計，用於從Series中提取單個值（如sum、mean）或從DataFrame的行或列中提取一個Series.

1、相關示例

約簡方法的常見選項：

選項	說明
axis	約簡的軸
skipna	默認爲True.即默認排除缺失值
level	若軸是層次化索引（即MultiIndex），則根據level分組約簡

間接統計(idxmax())

方法	說明
count	計算樣本值中非NA值的數量
describe	針對Series或各DataFrame列計算彙總統計
min、max	計算樣本值的最小值、最大值
argmin、argmax	計算能夠獲取到最小值、最大值的索引位置（整數）
idxmin、idxmax	計算能夠獲取到最小值、最大值的索引值
quantile	計算樣本值的分位數（0到1）
sum	計算樣本值的總和
mean	計算樣本值的平均數
median	計算樣本值的中位數（50%分位數）
mad	根據平均值計算平均絕對離差
var	計算樣本值的方差
std	計算樣本值的標準差
skew	計算樣本值的偏度(三階矩）
kurt	計算樣本值的峯度（四階距）
cumsum	計算樣本值的累計和
cummin、cummax	計算樣本值的累計最大值、累計最小值
cumprod	計算樣本值的累計積
diff	計算樣本值的一階差分（對時間序列很有用）
pct_change	計算百分數變化

返回的數組時未排序的，如果想返回的數組排序，可增添unique.sort()返回

value_counts()也適用於pandas.即pandas.value_count()

方法	說明
isin	計算一個表示"Series各值是否包含與傳入的值序列中"的布爾型數組
unique	計算series中的唯一值數組，按發現順序返回
value_counts	返回一個Series,其索引爲唯一值，其值爲頻次，按頻次值降序排列

pandas使用浮點值NaN(Not a Number）表示浮點和非浮點數組中的缺失數據

dropna返回的是一個僅非空數據和索引值的Series

1）Series的缺失值濾除

2) DataFrame對象對缺失值的濾除

dropna默認丟棄任何含有缺失值的行

當dropna()傳入參數how = ‘all’即值有在一行中全部爲缺失值時才被丟棄

指定axis=1,按列丟棄

1）fllna() 傳入一個常數，即填充爲這個常數

2）fillna() 傳入一個字典【對指定列進行填充不同的值】

3）fillna()傳入inplace關鍵字（默認inplae=False。即不改變原來的數據，當爲True時，則改變原來的數據）

4）fillna() 傳入關鍵字method='ffill' 和limit 時

5）fillna傳入其它統計描述方法

6）fillna函數參數

參數	說明
value	用於填充缺失值的標量值或字典對象
method	插值方式，如果函數調用時未指定其他參數的話，默認‘ffill’.【即前向填充缺失值（根據前一個值進行缺失值填充）】
axis	待填充的軸，默認axis=0
inplace	修改調用者對象而不產生副本
limit	（對於前向和後向填充）可以連續填充的最大數量