drop_duplicates去重詳解

根據數據的不同情況及處理數據的不同需求,通常會分爲兩種情況,一種是去除完全重複的行數據,另一種是去除某幾列重複的行數據,就這兩種情況可用下面的代碼進行處理。

1. 去除完全重複的行數據

data.drop_duplicates(inplace=True)

2. 去除某幾列重複的行數據

data.drop_duplicates(subset=['A','B'],keep='first',inplace=True)

subset: 列名,可選,默認爲None

keep: {‘first’, ‘last’, False}, 默認值 ‘first’

  • first: 刪除第一次出現的重複項。
  • last: 刪除重複項,除了最後一次出現。
  • False: 刪除所有重複項。

inplace:布爾值,默認爲False,是否直接在原數據上刪除重複項或刪除重複項後返回副本。(inplace=True表示直接在原來的DataFrame上刪除重複項,而默認值False表示生成一個副本。)

參考:
https://blog.csdn.net/qq_28811329/article/details/79962511
https://blog.csdn.net/Disany/article/details/82689948

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章