Python_數據分析_pandas_06合併與連接

1. 合併與連接

合併與鏈接基於pandas的merge()函數,鏈接的種類分爲一對一鏈接、多對一鏈接、多對多鏈接

1.1 設置合併的鍵

  1. 基礎的方式是on
  2. 合併的數據集列名不一致時:left_on right_on

1.2 設置合併的規則

  1. 內連接設置how = ‘inner’ 是默認設置(數據庫中的inner join)
  2. 內連接對應的是外連接 outer
  3. 左連接left 對應右鏈接 right

2.案例:美國州數據

2.1 數據說明

  1. 數據鏈接爲: https://github.com/jakevdp/data-USstates
  2. 數據包含三個csv,state-population表示州人口數據(州使用簡稱),state-areas表示州面積數據(使用全稱),state-abbrevs是州的簡稱和全程對應數據
  3. 統計目標:2010年各州人口密度排名
  4. 數據展示:
    在這裏插入圖片描述

2.2 數據處理

step1:提取2010年各州人口數據,需要使用query()函數
在這裏插入圖片描述
step2:根據pop_2010鏈接州全名
在這裏插入圖片描述
step3:根據step2數據,鏈接州面積
在這裏插入圖片描述
step4:檢查缺失值並刪除
在這裏插入圖片描述
step5:計算密度並排序
在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章