pandas.DataFrame.drop_duplicates
DataFrame.drop_duplicates(subset=None, keep='first', inplace=False)
參數
- subset: 列標籤,可選
- keep: {‘first’, ‘last’, False}, 默認值 ‘first’
- first: 刪除第一次出現的重複項。
- last: 刪除重複項,除了最後一次出現。
- False: 刪除所有重複項。
- inplace:布爾值,默認爲False,是否刪除重複項或返回副本
返回: 重複數據刪除 : DataFrame
示例:
data = pd.DataFrame({'A':['a','b','c','c'],'B':[1,1,2,2]})
A B
0 a 1
1 b 1
2 c 2
3 c 2
data.drop_duplicates(subset=None,keep='first',inplace=True)
A B
0 a 1
1 b 1
2 c 2
data.drop_duplicates(subset=['B'],keep='first',inplace=True)
A B
0 a 1
2 c 2
subset=None表示考慮所有列,將這所以列對應值相同的行進行去重。默認值None。subset=[‘B’]表示只考慮’B’這列,將B列對應值相同的行進行去重。
keep='first’表示保留第一次出現的重複行,是默認值。keep另外兩個取值爲"last"和False,分別表示保留最後一次出現的重複行和去除所有重複行。
inplace=True表示直接在原來的DataFrame上刪除重複項,而默認值False表示生成一個副本。