python日記——Pandas之數據特徵分析
-
Pandas庫的數據排序
1、.sort_index()方法在指定軸上根據索引進行排序,默認升序:
.sort_index(axis=0, ascending=True)
2、.sort_values()方法在指定軸上根據數值進行排序,默認升序:
Series.sort_values(axis=0, ascending=True)
DataFrame.sort_values(by(axis軸上的某個索引或索引列表), axis=0, ascending=True)
3、NaN統一放到排序末尾 -
merge操作
1、merge是合併數據集的操作
2、merge參數一覽表:
3、通過pd.merge()方法設置連接字段,默認參數how是inner內連接,並且會按照相同的字段key進行合併,即等價於on=‘key’。
4、pd.merge()方法設置連接方法。
主要包括inner(內連接)、outer(外鏈接)、left(左連接)、right(右連接)。參數how採用outer外連接時,會取並集,並用NaN填充。 -
apply自定義函數操作
pandas 的 apply() 函數可以作用於 Series 或者整個 DataFrame,功能也是自動遍歷整個 Series 或者 DataFrame, 對每一個元素運行指定的函數 -
數據透視表
1、透視表是一種可以對數據動態排布並且分類彙總的表格格式。或許大多數人都在Excel使用過數據透視表,也體會到它的強大功能,而在pandas中它被稱作pivot_table。
2、pivot_table有四個最重要的參數index、columns、values、aggfunc
3、index就是層次字段,要通過透視表獲取什麼信息就按照相應的順序設置字段,values可以對需要的計算數據進行篩選,aggfunc參數可以設置我們對數據聚合時進行的函數操作(默認aggfunc=‘mean’,計算均值),columns類似index可以設置列層次字段,它不是一個必要參數,作爲一種分割數據的可選方式。
4、調用方式:df.pivot_table() -
數據的基本統計分析
1、 df.groupby():對數據進行分組
2、基本的統計分析函數
適用於Series和DataFrame:
適用於Series:
適用於Series和DataFrame:
.describe()函數可以一次性產生幾乎所有的統計分析值 -
數據的累計統計分析
1、累計統計分析函數:
適用於Series和DataFrame類型,累計計算:
適用於Series和DataFrame類型,滾動計算(窗口計算):
-
數據的相關分析
1、兩個事務的相關性:正相關、負相關、不相關
2、常用協方差判斷相關性:協方差>0爲正相關,協方差<0爲負相關,協方差=0爲獨立不相關
3、相關分析函數:
適用於Series和DataFrame類型:
-
.value_counts()
在pandas裏面常用value_counts確認數據出現的頻率:
本文內容參考於北京理工大學嵩天老師相關課程