drop_duplicates去重詳解

原創

2019-08-28 17:38

根據數據的不同情況及處理數據的不同需求，通常會分爲兩種情況，一種是去除完全重複的行數據，另一種是去除某幾列重複的行數據，就這兩種情況可用下面的代碼進行處理。

1. 去除完全重複的行數據

data.drop_duplicates(inplace=True)

2. 去除某幾列重複的行數據

data.drop_duplicates(subset=['A','B'],keep='first',inplace=True)

subset：列名，可選，默認爲None

keep： {‘first’, ‘last’, False}, 默認值 ‘first’

inplace：布爾值，默認爲False，是否直接在原數據上刪除重複項或刪除重複項後返回副本。（inplace=True表示直接在原來的DataFrame上刪除重複項，而默認值False表示生成一個副本。）

參考：
https://blog.csdn.net/qq_28811329/article/details/79962511
https://blog.csdn.net/Disany/article/details/82689948

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.