Jupyter 數據重複值處理

import os
import pandas as pd
import numpy as np
os.chdir('D:\Workspaces\Jupyter')
df = pd.read_excel('data_test.xlsx')
df
# 重複的是true
df.duplicated()
# 顯示
df[df.duplicated()]
# 按照這兩項查是否有重複值
df.duplicated(subset=['EventSubType','EventType'])
df[df.duplicated(subset=['EventSubType','EventType'])]
# 把最後一個設爲保留值,前面的算重複值
df.duplicated(subset=['EventSubType','EventType'],keep='last')
# 完全重複的數量
np.sum(df.duplicated())
# 刪除完全重複的
df.drop_duplicates()
# 刪除這兩項重複的
df.drop_duplicates(subset=['EventSubType','EventType'])

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章