11 ，pd 高級：空值補 0，去重，聚合函數，groupby ，pivot_table

原創

2020-07-05 16:14

1 ，空值，全部幹掉：data = data.dropna(axis=0)

代碼

if __name__ == '__main__':
    # 讀文件 csv ：
    data = pd.read_csv("titanic_train.csv")
    # 我們需要的數據 ：
    cols = ["PassengerId","Pclass","Fare","Survived","Sex","Age"]
    data = data[cols]
    # 空值處理 ： 全部去掉,刪除行,還剩下的數據 (714, 6)
    data = data.dropna(axis=0)
    print(data)

2 ，去重： data[“Pclass”].to_frame().drop_duplicates()

目的：船艙等級有多少種
代碼：

if __name__ == '__main__':
    # 讀文件 csv ：
    data = pd.read_csv("titanic_train.csv")
    # 我們需要的數據 ：
    cols = ["PassengerId","Pclass","Fare","Survived","Sex","Age"]
    data = data[cols]
    # 空值處理 ： 全部去掉,刪除行,還剩下的數據 (714, 6)
    data = data.dropna(axis=0)
    # 船艙等級有多少種 ：
    res = data["Pclass"].to_frame().drop_duplicates()
    print(res)
===============================
   Pclass
0       3
1       1
9       2

3 ，聚合，平均數： data.pivot_table(index=“x”,values=“x”,aggfunc=np.mean)

目的：求男女生還率
代碼：

if __name__ == '__main__':
    # 讀文件 csv ：
    data = pd.read_csv("titanic_train.csv")
    # 我們需要的數據 ：
    cols = ["PassengerId","Pclass","Fare","Survived","Sex","Age"]
    data = data[cols]
    # 空值處理 ： 全部去掉,刪除行,還剩下的數據 (714, 6)
    data = data.dropna(axis=0)
    # 聚合函數 ： 分組列，計算列，函數
    res = data.pivot_table(index="Sex",values="Survived",aggfunc=np.mean)
    print(res)
    print(type(res))
=====================================
        Survived
Sex             
female  0.754789
male    0.205298
<class 'pandas.core.frame.DataFrame'>

得到： dataframe
取一個值：女性倖存率

4 ，聚合，結果取值： res.loc[“female”][0]

目的：
從結果中把一個具體的元素取出來
代碼：

if __name__ == '__main__':
    # 讀文件 csv ：
    data = pd.read_csv("titanic_train.csv")
    # 我們需要的數據 ：
    cols = ["PassengerId","Pclass","Fare","Survived","Sex","Age"]
    data = data[cols]
    # 空值處理 ： 全部去掉,刪除行,還剩下的數據 (714, 6)
    data = data.dropna(axis=0)
    # 聚合函數 ： 分組列，計算列，函數
    res = data.pivot_table(index="Sex",values="Survived",aggfunc=np.mean)
    print(res)
    print("=========================")
    res = res.loc["female"][0]
    print(res)
    print(type(res))
====================================
        Survived
Sex             
female  0.754789
male    0.205298
=========================
0.7547892720306514
<class 'numpy.float64'>

5 ，聚合，總數：groupby

目的：每個等級的人數
精華代碼：

data.groupby(by="Pclass").size()

代碼：

if __name__ == '__main__':
    # 讀文件 csv ：
    data = pd.read_csv("titanic_train.csv")
    # 我們需要的數據 ：
    cols = ["PassengerId","Pclass","Fare","Survived","Sex","Age"]
    data = data[cols]
    # 空值處理 ： 全部去掉,刪除行,還剩下的數據 (714, 6)
    data = data.dropna(axis=0)
    # 聚合計算
    res = data.groupby(by="Pclass").size()
    print(res)
=========================================================
Pclass
1    186
2    173
3    355
dtype: int64

6 ，groupby 中的 size() 和 count()

意義不同：
1 ，size ：一共幾行
2 ，count ：不算 Nan ，幾行
作用對象不同：
1 ，size ：針對整體
2 ，count ：針對每一列

7 ，聚合，總和：pivot_table

目的：每個等級，船票總額
精華代碼：

res = data.pivot_table(index="Pclass",values="Fare",aggfunc=[np.sum,np.mean])

代碼：

if __name__ == '__main__':
    # 讀文件 csv ：
    data = pd.read_csv("titanic_train.csv")
    # 我們需要的數據 ：
    cols = ["PassengerId","Pclass","Fare","Survived","Sex","Age"]
    data = data[cols]
    # 聚合運算，每個等級的船票總額
    res = data.pivot_table(index="Pclass",values="Fare",aggfunc=[np.sum,np.mean])
    print(res)
===========================================
               sum       mean
              Fare       Fare
Pclass                       
1       18177.4125  84.154687
2        3801.8417  20.662183
3        6714.6951  13.675550

8 ，groupby 綜合練習： data.groupby(by=“Pclass”).agg(gz)

目的：
1 ，不同船艙等級
2 ，共幾人
3 ，倖存率
4 ，共花了多少錢
5 ，平均船票單價
6 ，做好之後，將列名改過來
全部代碼：

if __name__ == '__main__':
    # 讀文件 csv ：
    data = pd.read_csv("titanic_train.csv")
    # 我們需要的數據 ：
    cols = ["PassengerId","Pclass","Fare","Survived","Sex","Age"]
    data = data[cols]
    # 計算規則
    gz = {"PassengerId":np.size,"Survived":np.mean,"Fare":np.sum}
    # 聚合運算
    res = data.groupby(by="Pclass").agg(gz)
    # 改列名
    res.rename(columns={"PassengerId":"all_people","Fare":"all_morney","Survived":"sur_people"},inplace=True)
    print(res)
===============================================
        all_morney  all_people  sur_people
Pclass                                    
1       18177.4125         216    0.629630
2        3801.8417         184    0.472826
3        6714.6951         491    0.242363

9 ，關於 pivot_table ：

常用函數：

np.size ： 共幾個，算上空值
np.mean ： 平均值
np.sum  ： 總和
np.max  ： 最大值
np.min  ： 最小值

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

11 ，pd 高級：空值補 0，去重，聚合函數，groupby ，pivot_table

1 ，空值，全部幹掉：data = data.dropna(axis=0)

2 ，去重： data[“Pclass”].to_frame().drop_duplicates()

3 ，聚合，平均數： data.pivot_table(index=“x”,values=“x”,aggfunc=np.mean)

4 ，聚合，結果取值： res.loc[“female”][0]

5 ，聚合，總數：groupby

6 ，groupby 中的 size() 和 count()

7 ，聚合，總和：pivot_table

8 ，groupby 綜合練習： data.groupby(by=“Pclass”).agg(gz)

9 ，關於 pivot_table ：

杭州的 IT 崩盤了麼？

開源高性能結構化日誌模塊NanoLog

Python 潮流週刊#55：分享 9 個高質量的技術類信息源！

Azure Virtual Network (22) 多訂閱使用Azure DNS解析問題 Windows Azure Platform 系列文章目錄

【簡寫Mybatis-02】註冊機的實現以及SqlSession處理

手繪二維碼

.NET藉助虛擬網卡實現一個簡單異地組網工具

13 ，np 常用函數：範圍內取 n 個值

01 ，seaborn 基本設置：5種風格，刻度線，圖位置，子圖風格，文字大小，線寬

04 ，plt 設置：x-y 範圍，座標點，外邊框，plt 與 ax 的區別，推薦 ax ：

08 ，散點圖( x-y ) scatter ：

05 ，子圖：多個 ax 進行畫圖，fig.add_subplot

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

11 ，pd 高級 ：空值補 0，去重，聚合函數，groupby ，pivot_table

1 ，空值，全部幹掉 ：data = data.dropna(axis=0)

2 ，去重 ： data[“Pclass”].to_frame().drop_duplicates()

3 ，聚合，平均數 ： data.pivot_table(index=“x”,values=“x”,aggfunc=np.mean)

4 ，聚合，結果取值 ： res.loc[“female”][0]

5 ，聚合，總數 ：groupby

6 ，groupby 中的 size() 和 count()

7 ，聚合，總和 ：pivot_table

8 ，groupby 綜合練習 ： data.groupby(by=“Pclass”).agg(gz)

9 ，關於 pivot_table ：

11 ，pd 高級：空值補 0，去重，聚合函數，groupby ，pivot_table

1 ，空值，全部幹掉：data = data.dropna(axis=0)

2 ，去重： data[“Pclass”].to_frame().drop_duplicates()

3 ，聚合，平均數： data.pivot_table(index=“x”,values=“x”,aggfunc=np.mean)

4 ，聚合，結果取值： res.loc[“female”][0]

5 ，聚合，總數：groupby

7 ，聚合，總和：pivot_table

8 ，groupby 綜合練習： data.groupby(by=“Pclass”).agg(gz)