pandas-數據清洗

原創

2020-02-20 22:58

目錄

1. 缺失值處理

2. 重複值處理

1. 缺失值處理

1.1 判斷缺失值

1、info()
2、isnull()，可與any()和all()結合使用
3、notnull()

導入數據：

使用info()可以查看每一列的相關信息，可以知道每一列有多少個非空數值。

使用isnull()判斷空值，按列判斷。

使用notnull()判斷非空，按列判斷。

1.2 丟棄缺失值

對於缺失值，可以丟棄處理（dropna）。
參數：

how：指定丟棄缺失值的行爲，默認是any（即有缺失值就刪除），all。
axis：指定丟棄行還是列，默認是axis = 0，丟棄行。
thresh：設置當非空值達到多少個時，保留數據。
inplace：是否就地修改。

導入數據：

使用dropna()按行刪除缺失值。原本有1396行數據，刪除缺失值後，剩餘1098行。

設置how

設置axis = 1，只要該列有缺失值就刪除該列。

設置thresh，只要大於等於設置的值，該行纔會被保留。

1.3 填充缺失值

對於缺失值，可以填充處理（fillna）。
參數：

value：指定填充的值，可以是字典，設置不同的列（key）填充不同的值（value）。
method：向上填充，採用前一個值填充（pad/ffill）；向下填充，採用後一個值填充（backfill/bfill）。
limit：指定最大連續NaN填充的次數，如果沒有指定，則表示填充所有的NaN。
iinplace：是否就地修改。

導入數據：

使用固定值填充

根據字典填充

向上填充ffill

向下填充bfill

limit最多連續填充NaN次數

1.4 describe()

describe()針對數值列和非數值列，顯示的信息不一樣。

導入數據：

2. 重複值處理

2.1 發現重複值

duplicated()發現重複值，該方法返回一個series類型對象，值爲布爾類型。
參數：
subset：指定依據哪些列來判斷是否重複，默認是所有列，即一行的所有值完全相同視爲重複。
keep：指定標記重複記錄的規則，默認是first。

first：前面的記錄標記爲True
last：後面的記錄標記爲True
False：所有記錄標記爲True
例如1，2，3行記錄重複，則
first：True True False
last：False True True
first：True True True

導入數據：

查看重複值

subset判斷只要某些列相同，則認爲是重複

2.2 刪除重複值

drop_duplicates()刪除重複值。
參數：
subset：指定依據哪些列判斷是否重複。

發佈了55 篇原創文章 · 獲贊 31 · 訪問量 2855

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Python的while循環

1.while循環的格式 while 條件: 條件滿足時，做的事情1 條件滿足時，做的事情2 條件滿足時，做的事情3 ...(省略)... demo

2023-10-10 11:37:31

python初識第二天

認識現實世界與虛擬世界的橋樑感受python帶來的魔力數據類型 Python裏，最常用的數據類型有三種——字符串(str)、整數(int)和浮點數(float) 字符串，字符串英文string，簡寫str 字符串的識別方式非常簡單—

2023-02-01 22:01:30

Python 的十大特性

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

Rupam Choudhary

2021-12-16 16:04:03

Python開發工程師[金融方向] Remote/Singapore (20k - 45k)

簡單介紹：要做的事：同交易員一起開發交易相關係統；能力要求：能獨立解決問題，完成項目開發，有較強的學習能力（技術和業務）品格正直，較強的心裏承壓能力；職業前景：能提供給你完全不同於互聯網公司的報酬上限，職業途徑；與一流交易員溝通機會，瞭解他

2021-12-09 17:53:05

JavaScript 瀏覽器統治地位不保？Python 有望取代

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-12-02 17:58:57

懶人暢聽網，有聲小說類目數據採集，多線程速採案例，Python爬蟲120例之23例

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

梦想橡皮擦

2021-11-23 11:18:54

令人不悅的–requests.exceptions.ProxyError

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-11-19 18:03:59

誰有粉？就爬誰！他粉多，就爬他！Python 多線程採集 260000+ 粉絲數據

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

梦想橡皮擦

2021-11-19 11:53:49

PHP正在“殺死”Python

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-11-11 15:58:55

2021年Python的好與壞

{"type":"doc","content":[{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","text":"摘要"}]},{"t

2021-11-11 10:53:54

如何使用Python進行超參調參和調優

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

Nikola M. Zivkovic

2021-10-29 10:13:57

許式偉：Go+ Together丨Go+ 1.0 發佈會乾貨分享

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-10-19 18:18:55

這篇 python 文章，是過去你錯過的 python 細節知識點，滾雪球第4季第15篇

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

梦想橡皮擦

2021-10-15 16:03:54

1. 滾雪球學Python第四季開啓，一需三喫，Python 函數式編程初識，面向過程，面向對象，函數式

{"type":"doc","content":[{"type":"blockquote","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null

梦想橡皮擦

2021-10-14 10:33:53

微信迴應用戶相冊問題；IBM 強制員工打疫苗；Win 11、Android 12正式發佈；Facebook 宕機 6 小時；喬布斯去世十週年；微軟開放第三方商店入駐

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-10-11 09:03:55

24小時熱門文章

最新文章

最新評論文章