[數據分析學習筆記] 數據預處理

原創

2020-06-21 07:35

數據預處理一方面是要提高數據的質量，另一方面是要讓數據更好地適應特定的挖掘技術或工具。

爲什麼需要進行數據預處理？

包含在數據源中的大部分原始數據未被處理，它們是不完整的數據或者含有不符合數據分析要求的數據，爲此需要進行數據預處理。這些數據中可能包含（不符合要求的數據）：

過時或冗餘字段

缺失值

離羣值

其形式不適合數據分析模型的數據

與分析策略或常識不一致的值

離羣值是偏離了其他值得趨勢的極端值。識別離羣值非常重要，因爲它們有可能代表數據輸入錯誤。此外，某些統計方法對離羣值是非常敏感的，即使離羣值是有效的數據而不是錯誤的數據，也可能對分析產生不可靠的結果。

識別離羣值的圖形方法是校驗變量的直方圖。

識別離羣值的數值方法：

使用Z-score

均值和標準差

IQR

數據預處理的主要內容包括：數據清洗、數據集成、數據變換和數據規約。

知識點總結如下圖所示：

數據清洗：主要是刪除原始數據集中的無關數據、重複數據，平滑噪聲數據，篩選掉與挖掘主題無關的數據，處理缺失值、異常值等。

數據集成：將多個數據源合併存放在一個一致的數據存儲（如：數據倉庫）中的過程。

數據變換：對數據進行規範化處理，將數據轉換成“適當的”形式，以適用於挖掘任務及算法的需要。

數據規約：在大數據集上進行復雜的數據分析和挖掘需要很長的時間，數據規約產生更小但保持原數據完整性的新數據集。在規約後的數據集上進行分析和挖掘將更有效率。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.