數據分析-數據處理-pandas處理重複值

原創

策马奔腾的小杨

2020-02-21 17:11

# 處理重複數據
import pandas as pd
# 創建一個具有重複數據的DataFrame對象
df = pd.DataFrame({'k1':["one", "two"]*3+["two"]*2, "k2":[1,1,2,3,3,4,4,4]})
df

	k1	k2
0	one	1
1	two	1
2	one	2
3	two	3
4	one	3
5	two	4
6	two	4
7	two	4

查找重複數據

# 判斷重複的數據 只標記重複的數據，不包括進行對比的原始的那條數據
df.duplicated()

0    False
1    False
2    False
3    False
4    False
5    False
6     True
7     True
dtype: bool

# 標記所有的重複的數據，包括進行對比的原始的數據
df.duplicated(keep=False)

0    False
1    False
2    False
3    False
4    False
5     True
6     True
7     True
dtype: bool

# 指定判斷重複的列
df.duplicated(subset='k1')

0    False
1    False
2     True
3     True
4     True
5     True
6     True
7     True
dtype: bool

刪除重複數據

# 刪除重複的行，只保留第一個重複的行
df.drop_duplicates()

	k1	k2
0	one	1
1	two	1
2	one	2
3	two	3
4	one	3
5	two	4

# 刪除指定的重複行
df.drop_duplicates('k1')

	k1	k2
0	one	1
1	two	1

策馬奔騰的小楊

發佈了67 篇原創文章 · 獲贊 24 · 訪問量 1萬+

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Excel複合圖表的使用

複合圖表亦稱“複式條形圖”。以兩個或兩個以上的條形爲一組代表一個大項目,用每組中的各個條......個同類指標在不同地點、條件下的變動，表明事物之間的差異其實就把兩張圖表組合到一起，用對比的思維看問題首先建立一個數據表格，如何把數據累

2020-07-08 05:25:47

Excel輔助列的使用方法案例

輔助列的使用，輔助列就是輔助統計及分析的一列數據，它能讓數據統計與分析變得更加的簡單快捷，提高我們的工作效率，有時候輔助列能將非常複雜的問題變得非常的簡單，善用輔助列能一定程度的提高我們的工作效率，下面就讓我們用2個例子來看輔助列的常見的

2020-07-08 05:25:47

阿里雲 MaxCompute 2020-12 月刊

【12月新發布功能】 1、MaxCompute 查詢編輯器支持查詢加速提升數據分析能力 MaxCompute 數據分析支持查詢加速，當分析師通過SQL查詢數據時，速度可提升至秒級，爲數據分析師提供更優的數據分析體驗。適用客戶及場景數據分

2021-01-05 14:43:48

阿里雲 MaxCompute 2020-11 月刊

【11月新功能發佈】1、MaxCompute支持以RAM角色身份訪問使用服務在雲賬號、RAM用戶基礎上，支持以RAM角色身份訪問服務，滿足跨雲服務的安全數據交換以及與企業已有身份系統實現SSO對接訪問需求。適用客戶已自建身份系統需要以R

2020-12-03 09:55:49

阿里雲 MaxCompute 2020-9 月刊

【9月新功能發佈】 1. MaxCompute作業監控診斷工具Logview功能升級發佈此次Logview功能升級，擴展了MaxCompute作業的監控指標，提供作業回放功能，新增Fuxi Sensor支持查看作業內存及CPU使用。適用

2020-10-10 10:31:48

物聯網和人工智能在疫苗研發中的作用

雲棲號資訊：【點擊查看更多行業資訊】在這裏您可以找到不同行業的第一手的上雲資訊，還在等什麼，快來！出於顯而易見的原因，研發疫苗是人們目前的首要考慮目標。尋找安全有效的冠狀病毒疫苗是成千上萬甚至數百萬人的生命以及全球經濟健康的基礎。在疫

雲棲號資訊小哥

2020-08-03 14:07:50

適合 Python 入門的 8 款強大工具！

Python是一種開源的編程語言，可用於Web編程、數據科學、人工智能以及許多科學應用。學習Python可以讓程序員專注於解決問題，而不是語法。由於Python相對較小，且擁有各式各樣的工具，因此比Java和C++等語言更具優勢，同時豐富的

雲棲號資訊小編

2020-07-27 11:40:52

星辰大海：阿里數據體驗技術揭祕！

雲棲號資訊：【點擊查看更多行業資訊】在這裏您可以找到不同行業的第一手的上雲資訊，還在等什麼，快來！阿里妹導讀：阿里巴巴數據體驗技術團隊從一開始建立就致力於打造數據領域體驗技術的標杆。經過多年的深耕，形成了一整套面向兩個階段的用戶產品的

雲棲號資訊小編

2020-07-23 13:04:56

python--內置函數

1、python內置函數：類型轉換數學運算常用 int() max() all() range() help() float() min() any() set() format() long() sum() type()

2020-07-08 10:38:40

數學建模之傳染病SIR模型（新冠真實數據）

傳染病模型的基本問題描述傳染病的傳播過程分析受感染人數的變化規律預報傳染病高潮到來的時刻預防傳染病蔓延的手段按照傳播過程的一般規律用機理分析方法建立模型注：我們這裏是介紹數學醫學領域中基本的傳染病模型。不從醫學角度

小白不白nie

2020-07-08 04:34:52

數據調度平臺系統二大種類及其實現方法與流程

什麼是調度系統調度系統，更確切地說，作業調度系統（Job Scheduler）或者說工作流調度系統（workflow Scheduler）是任何一個稍微有點規模，不是簡單玩玩的大數據開發平臺都必不可少的重要組成部分。除了Crontab

taskctl调度工具

2020-07-08 04:22:11

numpy利用矢量計算距離

什麼是矢量。利用矢量計算距離，cos相似度，矢量之間的點乘(內積) 矢量：有方向有長度的變量計算距離： #將座標用數組的形式表示 a = np.array([2,7]) b = np.array([8,3]) #求a,b的範式，

2020-07-08 03:51:04

生鮮電商行業以及APP體驗分析

2020-07-08 03:46:15

etl數據調度平臺系統類別的實現方法及工作流程

什麼是調度系統調度系統，更確切地說，作業調度系統（Job Scheduler）或者說工作流調度系統（workflow Scheduler）是任何一個稍微有點規模，不是簡單玩玩的大數據開發平臺都必不可少的重要組成部分。除了Crontab

taskctl调度工具

2020-07-08 03:42:10

5-04標註

上一節我們講了數據清晰的內容，通過清晰我們保留了正常的數據，在處理特徵預處理內容之前，我們先要確定標註，反應目的的屬性就是標註，其他有關係的特徵

(๑• . •๑)框

2020-07-08 02:07:20

24小時熱門文章

最新文章

最新評論文章