python pandas dataframe 去重函數


轉自:http://bluewhale.cc/2016-08-06/use-pandas-filter-and-sort.html

from pandas import Series, DataFrame

data = DataFrame({'k': [1, 1, 2, 2]})

print data

IsDuplicated = data.duplicated()

print IsDuplicated
print type(IsDuplicated)
data = data.drop_duplicates()
print data



執行結果是:

  1.    k  
  2. 0  1  
  3. 1  1  
  4. 2  2  
  5. 3  2  
  1. 0    False  
  2. 1     True  
  3. 2    False  
  4. 3     True  
  1.    k  
  2. 0  1  
  3. 2  2 

DataFrame的duplicated方法返回一個布爾型Series,表示各行是否重複行。

而 drop_duplicates方法,它用於返回一個移除了重複行的DataFrame

這兩個方法會判斷全部列,你也可以指定部分列進行重複項判段。

例如,希望對名字爲k2的列進行去重





發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章