pandas學習-函數drop_duplicates的用法

pandas函數drop_duplicates用於去除DataFrame中的重複行。

語法:

DataFrame.drop_duplicates(subset=None, keep='first', inplace=False)

參數說明:

  • subset:指定要考慮的列名或列名的列表。默認值爲None,表示考慮所有列。
  • keep:指定保留哪個重複的行。可選值爲'first'(保留第一個出現的重複行)、'last'(保留最後一個出現的重複行)或False(刪除所有重複行)。默認值爲'first'。
  • inplace:指定是否在原始DataFrame上進行修改。如果爲True,則在原始DataFrame上刪除重複行並返回None。如果爲False(默認值),則返回一個新的DataFrame,其中刪除了重複行。

示例:

import pandas as pd

data = {'name': ['John', 'Mary', 'John', 'Peter'],
        'city': ['London', 'Paris', 'London', 'Berlin']}
df = pd.DataFrame(data)

# 刪除所有重複行
df.drop_duplicates(inplace=True)
print(df)

輸出:

   name    city
0  John  London
1  Mary   Paris
3  Peter  Berlin

在上述示例中,使用drop_duplicates函數刪除了DataFrame中的重複行,並返回了新的DataFrame。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章