python的去重以及數據合併的用法

原創

Just_do_it_2018

2020-02-21 00:29

OUTLINE：

drop_dupicates
merge

drop_dupicates

參數含義：
subset：即表示要去重指定參考的列
keep : {‘first’, ‘last’, False}, default ‘first’
inplace:boolean, default False, 直接在原來的數據上修改還是保留副本

data = pd.DataFrame({'id':[1,1,2],'value':[12,14,27]})

#第一個參數傳入需要比對的列,在"id"列有相同的id,則進行去重
data.drop_duplicates(['id'],keep='last',inplace=True)

#我想比較"id"、"value"兩列的值全部相同時則去重
data.drop_duplicates(['id','value'],keep='last',inplace=True)

#如果想直接比較數據中的全部列都相同時才能去除，則可以按照如下方法.keep默認的是保留第一個
data.drop_duplicates()

merge

首先關於連接，從SQL中的可以得知，連接主要分爲外連接和內連接：

內連接

內連接是指在兩個數據表中，根據其指定合併的列，找到其交集，也就是既在df1中出現，也在df2中出現的數據

df1=pd.DataFrame({'key':['b','b','a','c','a','a','b'],
                  'data':range(7)})
df2=pd.DataFrame({'key':['a','b','d'],
                  'data2':range(3)})
df = pd.merge(df1,df2,on='key',how='inner') #不寫how也沒關係，因爲merge默認的就是內連接

假設如果在df1和df2中的指定要合併的列的列名不一致的話，則需要顯式指定根據哪一列進行合併

df3=pd.DataFrame({'key1':['b','b','a','c','a','a','b'],
                  'data':range(7)})
df4=pd.DataFrame({'key2':['a','b','d'],
                  'data2':range(3)})
df = pd.merge(df3,df4,left_on='key1',right_on='key2')
# 該結果比上面的on='key'的結果多一列相同的列，但是兩個的本質是一樣的，都是內連接

外連接

外連接可以分爲三種，全外連接、左連接和右連接。

全外連接就是保留兩個表中指定合併的列關鍵字的並集，然後在左右兩個表中找到相對應的數據進行填充，沒有的用NAN代替

df1=pd.DataFrame({'key':['b','b','a','c','a','a','b'],
                  'data':range(7)})
df2=pd.DataFrame({'key':['a','b','d'],
                  'data2':range(3)})

df = pd.merge(df1,df2,on='key',how='outer')

右連接是保留右表中指定列的所有關鍵字，然後去左表中找到指定列對應的數據進行補充，沒有的就NAN代替

df = pd.merge(df1,df2,on='key',how='right')

左連接是保留左表中指定列的所有關鍵字，然後去右表中找到指定列對應的數據進行補充，沒有的就NAN代替

df = pd.merge(df1,df2,on='key',how='left')

Just_do_it_2018

發佈了37 篇原創文章 · 獲贊 61 · 訪問量 16萬+

私信關注

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

python的去重以及數據合併的用法

OUTLINE：

drop_dupicates

merge

「Pygors跨平臺GUI」1：Pygors跨平臺GUI應用研究

[轉帖]

python列出centos7內存使用前50的進程信息

「Pygors跨平臺GUI」2：安裝MinGW-w64、MSYS2還是WSL2

Garnet：微軟官方基於.NET開源的高性能分佈式緩存存儲數據庫

Flink執行圖

Java響應式編程

評估統計算法在銀行僞造鈔票檢測中的價值

nodejs學習06——小案例

pandas如何將相同ID的字符串進行合併

今日頭條數據分析師分享有感

"module 'pip' has no attribute 'main'"&"name pip is not defined"

Excel中倒排數據

CSDN中上傳GIF圖片

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結