Pandas重複數據的查看和去重

原創

2020-06-13 11:07

實現步驟：

1、採用drop_duplicates對數據去兩次重，一次將重複數據全部去除（keep=False）記爲data1,另一次將重複數據保留一個（keep='first）記爲data2;
2、求data1和data2的差集即可:data2.append(data1).drop_duplicates(keep=False)

data1 = df.drop_duplicates(keep=False)  # 將重複數據全部去除
data2 = df.drop_duplicates(keep='first')  # 將重複數據只保留一個
cll = data2.append(data1).drop_duplicates(keep=False)  # 此時原來的重複數據不算重複，原來不重複的數據變成重複數據去除掉了
print(cll)

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

【Pandas】讀取和保存文件

1.讀取文件 Pandas可以讀取xlsx、json、csv、sql等多種文件格式 import pandas as pd # 讀取文件 file = pd.read_excel("test.xlsx", encoding="u

冰冷的希望

2020-07-08 02:02:18

【Pandas】選擇數據

1.創建一個DataFrame import numpy as np import pandas as pd dates = pd.date_range("20200301", periods=6) df1 = pd.DataF

冰冷的希望

2020-07-08 01:22:12

【Pandas】merge合併

1.on屬性 import pandas as pd df1 = pd.DataFrame({"a": ["A1", "A2", "A3"], "c": ["C1", "C2", "C3"

冰冷的希望

2020-07-08 01:22:12

pandas閱讀筆記

這幾天在閱讀python的pandas庫。現在還在閱讀第二章的內容，在第二章中又一個實例，有一個關於電影數據的數據集，然後，我們對它做一些簡單的分析，做個今天學習的總結。 Part 1 讀取數據首先使用的是pandas的read

2020-07-08 00:18:13

Pandas-object字符類型轉時間類型to_datetime()函數

一、pandas中to_datetime()函數可以將指定數據轉換爲相應格式的時間類型數據 pandas.to_datetime(arg,format=None,unit=None) 參數含義 arg 需要轉

2020-07-05 17:43:16

Pandas-去除重複項函數drop_duplicates()

一、drop_duplicates函數用途 pandas中的drop_duplicates()函數可以通過SQL中關鍵字distinct的用法來理解，根據指定的字段對數據集進行去重處理。二、drop_duplicates(

2020-07-05 17:43:16

Python-缺失值分類及Pandas中缺失數據處理函數

一、Python中缺失值分類 Python中有三種缺失值（空值）：形式含義 None Python內置的None值，如創建一個空的列表list=[] NA 在pandas中，將缺失值表示爲NA，表示不可用

2020-07-05 17:43:16

Python-Groupby函數應用

Pandas分組和聚合運算–Groupby函數應用一、groupby函數功能根據一個或多個鍵拆分pandas對象，計算分組摘要統計，如計數、平均值、標準差或用戶自定義函數等。二、groupby函數原理可將groupby函數

2020-07-05 17:43:16

Python-辨析type/dtype/astype用法

Python中與數據類型相關函數及屬性有如下三個：type/dtype/astype。名稱描述 type() 返回參數的數據類型 dtype 返回數組中元素的數據類型 astype() 對數據類型進行轉換

2020-07-05 17:43:05

Pandas和常見數據處理小模塊

文章目錄前言Pandas部分根據某一列找另一列根據條件變換每一列按照標籤保存爲DataFrame數據處理切分數據集和測試集其他計時前言 pandas 確實很好用，但是網上的教程參差不齊，找到可以用的比較花時間，所以自己總結

有问题先搜报错~

2020-07-04 18:28:18

pandas入門(一)

pandas介紹它含有使數據清洗和分析工作變得更快更簡單的數據結構和操作工具。pandas經常和其它工具一同使用，如數值計算工具NumPy和SciPy，分析庫statsmodels和scikit-learn，和數據可視化庫mat

2020-07-02 01:20:48

python concat時報錯‘InvalidIndexError: Reindexing only valid with uniquely valued Index objects’

在使用pd.concat((A,B)axis = 1)這個函數合併兩個相同的DataFrame的時候，出現了報錯： InvalidIndexError: Reindexing only valid with uniquely v

2020-07-01 22:40:33

Pandas 數據結構-Series

作爲自己學習的筆記，加油！ import pandas as pd Series是一種一維的數組型對象。包含兩個屬性Series.values 和Series.index 1.1創建Series from pandas

我爱玩泥巴

2020-06-29 13:20:38

Pandas-第六章缺失數據處理

目錄一、缺失預測及其類型二、缺失數據的運算與分組三、填充與剔除四、插值線性插值高級插值方法 interpolate中的限制參數一、缺失預測及其類型瞭解缺失值信息 df.isna() #或者df.列名.isn

我爱玩泥巴

2020-06-29 13:20:38

Pandas 第8章分類數據

Categoricals 是 pandas 的一種數據類型，對應着被統計的變量。Categoricals 是由固定的且有限數量的變量組成的。比如：性別、社會階層、血型、國籍、觀察時段、讚美程度等等。與其它被統計的變量相比，categor

我爱玩泥巴

2020-06-29 13:20:35

24小時熱門文章

物理機開關機

最新文章

最新評論文章