python日記Day16——Pandas之數據特徵分析

python日記——Pandas之數據特徵分析

  • Pandas庫的數據排序
    1、.sort_index()方法在指定軸上根據索引進行排序,默認升序:
    .sort_index(axis=0, ascending=True)
    2、.sort_values()方法在指定軸上根據數值進行排序,默認升序:
    Series.sort_values(axis=0, ascending=True)
    DataFrame.sort_values(by(axis軸上的某個索引或索引列表), axis=0, ascending=True)
    3、NaN統一放到排序末尾

  • merge操作
    1、merge是合併數據集的操作
    2、merge參數一覽表:
    在這裏插入圖片描述在這裏插入圖片描述
    3、通過pd.merge()方法設置連接字段,默認參數how是inner內連接,並且會按照相同的字段key進行合併,即等價於on=‘key’。
    4、pd.merge()方法設置連接方法。
    主要包括inner(內連接)、outer(外鏈接)、left(左連接)、right(右連接)。參數how採用outer外連接時,會取並集,並用NaN填充。

  • apply自定義函數操作
    pandas 的 apply() 函數可以作用於 Series 或者整個 DataFrame,功能也是自動遍歷整個 Series 或者 DataFrame, 對每一個元素運行指定的函數

  • 數據透視表
    1、透視表是一種可以對數據動態排布並且分類彙總的表格格式。或許大多數人都在Excel使用過數據透視表,也體會到它的強大功能,而在pandas中它被稱作pivot_table。
    2、pivot_table有四個最重要的參數index、columns、values、aggfunc
    3、index就是層次字段,要通過透視表獲取什麼信息就按照相應的順序設置字段,values可以對需要的計算數據進行篩選,aggfunc參數可以設置我們對數據聚合時進行的函數操作(默認aggfunc=‘mean’,計算均值),columns類似index可以設置列層次字段,它不是一個必要參數,作爲一種分割數據的可選方式。
    4、調用方式:df.pivot_table()

  • 數據的基本統計分析
    1、 df.groupby():對數據進行分組
    在這裏插入圖片描述
    2、基本的統計分析函數
    適用於Series和DataFrame:
    在這裏插入圖片描述
    適用於Series:在這裏插入圖片描述
    適用於Series和DataFrame:
    .describe()函數可以一次性產生幾乎所有的統計分析值在這裏插入圖片描述

  • 數據的累計統計分析
    1、累計統計分析函數:
    適用於Series和DataFrame類型,累計計算:
    在這裏插入圖片描述在這裏插入圖片描述
    適用於Series和DataFrame類型,滾動計算(窗口計算):
    在這裏插入圖片描述
    在這裏插入圖片描述

  • 數據的相關分析
    1、兩個事務的相關性:正相關、負相關、不相關
    2、常用協方差判斷相關性:協方差>0爲正相關,協方差<0爲負相關,協方差=0爲獨立不相關
    3、相關分析函數:
    適用於Series和DataFrame類型:
    在這裏插入圖片描述
    在這裏插入圖片描述

  • .value_counts()
    在pandas裏面常用value_counts確認數據出現的頻率
    在這裏插入圖片描述
    在這裏插入圖片描述
    在這裏插入圖片描述
    在這裏插入圖片描述

本文內容參考於北京理工大學嵩天老師相關課程

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章