圖解Pandas透視表和交叉表

原創

皮皮大

2021-08-14 12:55

圖解Pandas透視表pivot_table

大家好，我是Peter呀~

終於開始Pandas進階內容的寫作了。相信很多人都應該知道透視表，在Excel會經常去製作它，來實現數據的分組彙總統計。在Pandas中，我們把它稱之爲pivot_table。

透視表的製作靈活性高，可以隨意定製我們想要的的計算統計要求，一般在製作報表神器的時候常用。

下面通過具體的例子來對比Excel和Pandas中透視表的實現方法。

Excel透視表

下面是在Excel表格中使用消費數據製作的透視表（部分數據截圖），我們統計的是不同性別不同日期下的消費金額和小費，同時還顯示了總計的數據。

那如果是使用pandas該如何來實現呢？？？

參數

pandas中實現透視表使用的是：pandas.pivot_table

pd.pivot_table(data,  # 製作透視表的數據
               values=None,  # 值
               index=None,  # 行索引
               columns=None,  # 列屬性
               aggfunc='mean',   # 使用的函數，默認是均值
               fill_value=None,  # 缺失值填充
               margins=False, # 是否顯示總計
               dropna=True,   # 缺失值處理
               margins_name='All', # 總計顯示爲All
               observed=False,  
               sort=True  # 排序功能  版本1.3.0纔有
              )

最重要的參數還是：values、index、columns、aggfunce，甚至包含margins、margins_name

附上官網學習地址：https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.pivot_table.html

透視表pivot_table

參數index

index表示的是我們生成透視表指定的行索引

1、單層索引

2、多層行索引

參數values

在上面index參數的使用中，我們沒有指定values參數，pandas會默認將全部的數值型數據進行透視表的計算，現在指定參數計算的數據：

帶上values，只會顯示我們指定的數據
不帶上values，數值型的數據彙總結果全部顯示

參數columns

columns是一個顯示列屬性信息的參數

如果我們將day放在index參數中，會是什麼樣子呢？

相當於是：將上面的寬表格式轉成了下面的長表格式

再對比下兩種不同的形式：

參數aggfunc

aggfunc是一個很靈活的參數，它是用來指定我們彙總想用哪種函數，默認是均值mean，我們也可以使用求和sum、最值max等。多個函數需要放在一個列表中。

我們將默認求平均mean的情況與求和的情況進行對比：

均值和sum求和之間的關係：

我們可以在aggfunc函數中指定多個函數，將這些函數放在同一個列表中：

求和：np.sum
求均值：mean
求個數：size

再看一個例子：

參數margins、margins_name

這兩個參數的作用是對透視表中的分組數據進行彙總顯示。需要注意的是：只有margins=True，參數margins_name的設置纔會生效。

修改彙總顯示的名字：

如果有列字段，也會顯示彙總的數據：

交叉表crosstab()

交叉表可以理解成一種特殊的透視表，專門用於計算分組的頻率。

參數

交叉表中每個參數的解釋，很多還是和透視表相同的：

pandas.crosstab(index, # 行索引，必須是數組結構數據，或者Series，或者是二者的列表形式
                columns, # 列字段；數據要求同上
                values=None,  # 待透視的數據
                rownames=None,  # 行列名字
                colnames=None,  
                aggfunc=None,  # 透視的函數
                margins=False,  # 彙總及名稱設置
                margins_name='All', 
                dropna=True, # 捨棄缺失值
                normalize=False  # 數據歸一化；可以是布爾值、all、index、columns、或者{0,1}
               )

對最後一個參數的解釋：如何選擇歸一化的標準

If passed ‘all’ or True, will normalize over all values：使用all，對全部的數值型數據歸一化
If passed ‘index’ will normalize over each row：使用index，僅在行上歸一化
If passed ‘columns’ will normalize over each column：使用columns，僅在列上歸一化
If margins is True, will also normalize margin values：如果margins=True，總計值也會參與歸一化

參數使用

當然，有時候透視表和交叉表是可以實現相同的功能：

groupby實現

其實透視表或者交叉表的本質還是分組彙總統計結果，我們也可以利用groupby來實現：

1、先分組統計

2、軸旋轉unstack

上面的結果格式上不是很友好，使用的是多層次索引，我們使用軸旋轉函數unstack將行轉成列：

groupby和透視表比較

最後再用一個例子來比較下groupby和透視表：

備忘錄

這個網上非常流行的一張圖解Pandas透視表函數的圖形，它利用一份簡單的數據，清晰明瞭地講解了pivot_table函數的每個參數的含義，保存備用！

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

圖解Pandas透視表和交叉表

圖解Pandas透視表pivot_table

Excel透視表

參數

透視表pivot_table

參數index

參數values

參數columns

參數aggfunc

參數margins、margins_name

交叉表crosstab()

參數

參數使用

groupby實現

groupby和透視表比較

備忘錄

AI 畫圖真刺激，手把手教你如何用 ComfyUI 來畫出刺激的圖

公司剛入職了一名 Java 中級開發，短短 4 行代碼居然湊齊了 3 個 bug！我哭了~~

數據展示動態（跑分）顯示

公衆號5月C#/.NET熱文一覽

git 下載大陸鏡像地址

Pandas索引基本操作

快速認識Pandas的10大索引

2大模塊+20個函數，完美詮釋Python隨機過程~ 一、random模塊 np.random模塊

Pandas+Numpy+Sklearn隨機取數

pandas文本處理的3大祕訣

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結