python Pandas去重複數據drop_duplicates詳解

pandas.DataFrame.drop_duplicates

DataFrame.drop_duplicates(subset=None, keep='first', inplace=False)

參數

  • subset: 列標籤,可選
  • keep: {‘first’, ‘last’, False}, 默認值 ‘first’
    • first: 刪除第一次出現的重複項。
    • last: 刪除重複項,除了最後一次出現。
    • False: 刪除所有重複項。
  • inplace:布爾值,默認爲False,是否刪除重複項或返回副本

返回: 重複數據刪除 : DataFrame


示例

data = pd.DataFrame({'A':['a','b','c','c'],'B':[1,1,2,2]})

	A	B
0	a	1
1	b	1
2	c	2
3	c	2
data.drop_duplicates(subset=None,keep='first',inplace=True)

	A	B
0	a	1
1	b	1
2	c	2

data.drop_duplicates(subset=['B'],keep='first',inplace=True)

	A	B
0	a	1
2	c	2

subset=None表示考慮所有列,將這所以列對應值相同的行進行去重。默認值None。subset=[‘B’]表示只考慮’B’這列,將B列對應值相同的行進行去重。

keep='first’表示保留第一次出現的重複行,是默認值。keep另外兩個取值爲"last"和False,分別表示保留最後一次出現的重複行和去除所有重複行。

inplace=True表示直接在原來的DataFrame上刪除重複項,而默認值False表示生成一個副本。

學習使我快樂

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章