1. 合併與連接
合併與鏈接基於pandas的merge()函數,鏈接的種類分爲一對一鏈接、多對一鏈接、多對多鏈接
1.1 設置合併的鍵
- 基礎的方式是on
- 合併的數據集列名不一致時:left_on right_on
1.2 設置合併的規則
- 內連接設置how = ‘inner’ 是默認設置(數據庫中的inner join)
- 內連接對應的是外連接 outer
- 左連接left 對應右鏈接 right
2.案例:美國州數據
2.1 數據說明
- 數據鏈接爲: https://github.com/jakevdp/data-USstates
- 數據包含三個csv,state-population表示州人口數據(州使用簡稱),state-areas表示州面積數據(使用全稱),state-abbrevs是州的簡稱和全程對應數據
- 統計目標:2010年各州人口密度排名
- 數據展示:
2.2 數據處理
step1:提取2010年各州人口數據,需要使用query()函數
step2:根據pop_2010鏈接州全名
step3:根據step2數據,鏈接州面積
step4:檢查缺失值並刪除
step5:計算密度並排序