pandas的學習分爲以下方面
- 其中進行數據統計時常用的統計函數如下
- 數據表合併
一個DataFrame相當於一個數據庫的數據表,多個DataFrame數據表的合併就相當於多個數據庫的表合併。
兩個DataFrame數據表的合併使用的是merge()函數,有下面5種形式:
- 基於指定列進行連接
- inner內連接
- left左連接
- right右連接
- outter外連接
demo:
eg. 創建兩個DataFrame:
df1 = DataFrame({'name':['ZhangFei', 'GuanYu', 'a', 'b', 'c'], 'data1':range(5)})
df2 = DataFrame({'name':['ZhangFei', 'GuanYu', 'A', 'B', 'C'], 'data2':range(5)})
1. 基於指定列進行連接
可以基於 name 這列進行連接
df3 = pd.merge(df1, df2, on='name')
output:
2. inner 內連接
inner 內鏈接是 merge 合併的默認情況,inner 內連接其實也就是鍵的交集,在這裏 df1, df2 相同的鍵是 name,所以是基於 name 字段做的連接:
df3 = pd.merge(df1, df2, how='inner')
output:
3. left 左連接
左連接是以第一個 DataFrame 爲主進行的連接,第二個 DataFrame 作爲補充。
df3 = pd.merge(df1, df2, how='left')
output:
4. right 右連接
右連接是以第二個 DataFrame 爲主進行的連接,第一個 DataFrame 作爲補充。
df3 = pd.merge(df1, df2, how='right')
output:
5. outer 外連接
外連接相當於求兩個 DataFrame 的並集。
df3 = pd.merge(df1, df2, how='outer')