OUTLINE:
- drop_dupicates
- merge
drop_dupicates
參數含義:
subset:即表示要去重指定參考的列
keep : {‘first’, ‘last’, False}, default ‘first’
inplace:boolean, default False, 直接在原來的數據上修改還是保留副本
data = pd.DataFrame({'id':[1,1,2],'value':[12,14,27]})
#第一個參數傳入需要比對的列,在"id"列有相同的id,則進行去重
data.drop_duplicates(['id'],keep='last',inplace=True)
#我想比較"id"、"value"兩列的值全部相同時則去重
data.drop_duplicates(['id','value'],keep='last',inplace=True)
#如果想直接比較數據中的全部列都相同時才能去除,則可以按照如下方法.keep默認的是保留第一個
data.drop_duplicates()
merge
首先關於連接,從SQL中的可以得知,連接主要分爲外連接和內連接:
- 內連接
內連接是指在兩個數據表中,根據其指定合併的列,找到其交集,也就是既在df1中出現,也在df2中出現的數據
df1=pd.DataFrame({'key':['b','b','a','c','a','a','b'],
'data':range(7)})
df2=pd.DataFrame({'key':['a','b','d'],
'data2':range(3)})
df = pd.merge(df1,df2,on='key',how='inner') #不寫how也沒關係,因爲merge默認的就是內連接
假設如果在df1和df2中的指定要合併的列的列名不一致的話,則需要顯式指定根據哪一列進行合併
df3=pd.DataFrame({'key1':['b','b','a','c','a','a','b'],
'data':range(7)})
df4=pd.DataFrame({'key2':['a','b','d'],
'data2':range(3)})
df = pd.merge(df3,df4,left_on='key1',right_on='key2')
# 該結果比上面的on='key'的結果多一列相同的列,但是兩個的本質是一樣的,都是內連接
- 外連接
外連接可以分爲三種,全外連接、左連接和右連接。
全外連接就是保留兩個表中指定合併的列關鍵字的並集,然後在左右兩個表中找到相對應的數據進行填充,沒有的用NAN代替
df1=pd.DataFrame({'key':['b','b','a','c','a','a','b'],
'data':range(7)})
df2=pd.DataFrame({'key':['a','b','d'],
'data2':range(3)})
df = pd.merge(df1,df2,on='key',how='outer')
右連接是保留右表中指定列的所有關鍵字,然後去左表中找到指定列對應的數據進行補充,沒有的就NAN代替
df = pd.merge(df1,df2,on='key',how='right')
左連接是保留左表中指定列的所有關鍵字,然後去右表中找到指定列對應的數據進行補充,沒有的就NAN代替
df = pd.merge(df1,df2,on='key',how='left')