數據分析-數據處理-pandas處理重複值

# 處理重複數據
import pandas as pd
# 創建一個具有重複數據的DataFrame對象
df = pd.DataFrame({'k1':["one", "two"]*3+["two"]*2, "k2":[1,1,2,3,3,4,4,4]})
df
k1 k2
0 one 1
1 two 1
2 one 2
3 two 3
4 one 3
5 two 4
6 two 4
7 two 4

查找重複數據

# 判斷重複的數據 只標記重複的數據,不包括進行對比的原始的那條數據
df.duplicated()
0    False
1    False
2    False
3    False
4    False
5    False
6     True
7     True
dtype: bool
# 標記所有的重複的數據,包括進行對比的原始的數據
df.duplicated(keep=False)
0    False
1    False
2    False
3    False
4    False
5     True
6     True
7     True
dtype: bool
# 指定判斷重複的列
df.duplicated(subset='k1')
0    False
1    False
2     True
3     True
4     True
5     True
6     True
7     True
dtype: bool

刪除重複數據

# 刪除重複的行,只保留第一個重複的行
df.drop_duplicates()
k1 k2
0 one 1
1 two 1
2 one 2
3 two 3
4 one 3
5 two 4
# 刪除指定的重複行
df.drop_duplicates('k1')
k1 k2
0 one 1
1 two 1
發佈了67 篇原創文章 · 獲贊 24 · 訪問量 1萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章