python日記Day16——Pandas之數據特徵分析

原創

石石石大帅

2020-06-14 17:38

python日記——Pandas之數據特徵分析

Pandas庫的數據排序
1、.sort_index()方法在指定軸上根據索引進行排序，默認升序：
.sort_index(axis=0, ascending=True)
2、.sort_values()方法在指定軸上根據數值進行排序，默認升序：
Series.sort_values(axis=0, ascending=True)
DataFrame.sort_values(by（axis軸上的某個索引或索引列表）, axis=0, ascending=True)
3、NaN統一放到排序末尾
merge操作
1、merge是合併數據集的操作
2、merge參數一覽表：

3、通過pd.merge()方法設置連接字段，默認參數how是inner內連接，並且會按照相同的字段key進行合併，即等價於on=‘key’。
4、pd.merge()方法設置連接方法。
主要包括inner（內連接）、outer（外鏈接）、left（左連接）、right（右連接）。參數how採用outer外連接時，會取並集，並用NaN填充。
apply自定義函數操作
pandas 的 apply() 函數可以作用於 Series 或者整個 DataFrame，功能也是自動遍歷整個 Series 或者 DataFrame, 對每一個元素運行指定的函數
數據透視表
1、透視表是一種可以對數據動態排布並且分類彙總的表格格式。或許大多數人都在Excel使用過數據透視表，也體會到它的強大功能，而在pandas中它被稱作pivot_table。
2、pivot_table有四個最重要的參數index、columns、values、aggfunc
3、index就是層次字段，要通過透視表獲取什麼信息就按照相應的順序設置字段，values可以對需要的計算數據進行篩選，aggfunc參數可以設置我們對數據聚合時進行的函數操作（默認aggfunc=‘mean’，計算均值），columns類似index可以設置列層次字段，它不是一個必要參數，作爲一種分割數據的可選方式。
4、調用方式：df.pivot_table()
數據的基本統計分析
1、 df.groupby()：對數據進行分組

2、基本的統計分析函數
適用於Series和DataFrame：

適用於Series：
適用於Series和DataFrame：
.describe()函數可以一次性產生幾乎所有的統計分析值
數據的累計統計分析
1、累計統計分析函數：
適用於Series和DataFrame類型，累計計算：

適用於Series和DataFrame類型，滾動計算（窗口計算）：
數據的相關分析
1、兩個事務的相關性：正相關、負相關、不相關
2、常用協方差判斷相關性：協方差>0爲正相關，協方差<0爲負相關，協方差=0爲獨立不相關
3、相關分析函數：
適用於Series和DataFrame類型：
.value_counts()
在pandas裏面常用value_counts確認數據出現的頻率：