數據探索與數據清洗概述

數據探索的目的是及早發現數據的一些簡單規律或特徵,數據清洗的目的是留下可靠的數據,避免髒數據的干擾。這兩者沒有嚴格的先後順序,經常在一個階段進行。

數據探索的核心

數據探索的核心是:

  • 數據質量分析(跟數據清洗密切聯繫)
  • 數據特徵分析(分佈、對比、週期型、相關性、常見統計量等)

數據清洗實戰

數據清洗可以按如下步驟進行:

1.缺失值處理(通過describe與len直接發現、通過0數據發現)
2.異常值處理(通過散點圖發現)
一般遇到缺失值,處理方式爲(刪除、插補、不處理);
插補的方式主要有:均值插補、中位數插補 、衆數插補、固定值插補、最近數據插補、迴歸插補、拉格朗日插值、牛頓插值法、分段插值等等。
遇到異常值,一般處理方式爲視爲缺失值、刪除、修補(平均數、中位數等等)、不處理。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章