常見的數據預處理方法有:數據清洗、數據集成、數據變換和數據歸約。
1. 數據清洗:數據清洗的目的不只是要消除錯誤、冗餘和數據噪音,還要能將按不同的、不兼容的規則所得的各種數據集一致起來。
2. 數據集成:將多個數據源中的數據合併,並存放到一個一致的數據存儲(如數據倉庫)中。這些數據源可能包括多個數據庫、數據立方體或一般文件。
3. 數據變換:找到數據的特徵表示,用維度變換來減少有效變量的數目或找到數據的不變式,包括規格化、規約、切換和投影等操作。
4. 數據歸約:是在對發現任務和數據本身內容理解的基礎上,尋找依賴於發現目標的表達數據的有用特徵,以縮減數據模型,從而在儘可能保持數據原貌的前提下最大限度的精簡數據量,主要有兩個途徑:屬性選擇和數據抽樣,分別針對數據庫中的屬性和記錄。
一 數據清洗
1 缺失值處理
1.1 刪除法
在不影響數據結構的情況下,刪除法是最簡單的將缺失值轉變爲完整數據集的方法。根據數據處理的不同角度,刪除法可分爲以下4種:
(1) 刪除觀測樣本;
(2) 刪除變量:當某個變量缺失值較多且對研究目標影響不大時,可以將整個變量整體刪除;
(3) 使用完整原始數據分析:當數據存在較多缺失而其原始數據完整時,可以使用原始數據替代現有數據進行分析;
(4) 改變權重:當刪除缺失數據會改變數據結構時,通過對完整數據按照不同的權重進行加工,可以降低刪除數據帶來的偏差。
1.2 插補法
在條件允許的情況下,找到缺失值的替代值進行插補,儘可能還原真實數據是更好的方法。常見的方法有均值插補、迴歸插補、二階插補、熱平臺、冷平臺等單一變量插補。
(1) 均值法是通過計算缺失值所在變量所有非缺失觀測值的均值,使用均值來代替缺失值的插補方法。
(2) 均值法不能利用相關變量信息,因此會存在一定偏差,而回歸模型是將需要插補變量作爲因變量,其他相關變量作爲自變量,通過建立迴歸模型預測出因變量的值對缺失變量進行插補。
(3) 熱平臺插補是指在非缺失數據集中找到一個與缺失值所在樣本相似的樣本(匹配樣本),利用其中的觀測值對缺失值進行插補。
(4) 在實際操作中,尤其當變量數量很多時,通常很難找到與需要插補樣本完全相同的樣本,此時可以按照某些變量將數據分層,在層中對缺失值使用均值插補,即採取冷平臺插補法。
2 噪聲數據處理
噪聲是一個測量變量中的隨機錯誤和偏差,包括錯誤值或偏離期望的孤立點值。
噪聲檢查中比較常見的方法:(1)通過尋找數據集中與其他觀測值及均值差距最大的點作爲異常值;(2)聚類方法檢測,將類似的取值組織成“羣”或“簇”,落在“簇”集合之外的值被視爲離羣點。
在進行噪聲檢查後,通常採用分箱、迴歸、計算機檢查和人工檢查結合等方法“光滑”數據,去掉數據中的噪聲。
二數據集成
數據集成中的兩個主要問題是:(1)如何對多個數據集進行匹配,當一個數據庫的屬性與另一個數據庫的屬性匹配時,必須注意數據的結構;(2)數據冗餘。兩個數據集有兩個命名不同但實際數據相同的屬性,那麼其中一個屬性就是冗餘的。
三數據變換
數據變換策略主要包括以下幾種:
(1) 光滑:去掉噪聲;
(2) 屬性構造:由給定的屬性構造出新屬性並添加到數據集中。例如,通過“銷售額”和“成本”構造出“利潤”,只需要對相應屬性數據進行簡單變換即可;
(3) 聚集:對數據進行彙總。比如通過日銷售數據,計算月和年的銷售數據;
(4) 規範化:把數據單按比例縮放,比如數據標準化處理;
(5) 離散化:將定量數據向定性數據轉化。比如一系列連續數據,可用標籤進行替換(0,1);
四數據歸約
數據歸約通常用維歸約、數值歸約方法實現。維歸約指通過減少屬性的方式壓縮數據量,通過移除不相關的屬性,可以提高模型效率。常見的維歸約方法有:分類樹、隨機森林通過對分類效果的影響大小篩選屬性;小波變換、主成分分析通過把原數據變換或投影到較小的空間來降低維數。