分類算法之一——數據預處理

現實世界中數據大體上都是不完整,不一致的髒數據,無法直接進行數據挖掘,或挖掘結果差強人意。爲了提前數據挖掘的質量產生了數據預處理技術。

  數據預處理有多種方法:數據清理,數據集成,數據變換,數據歸約等。這些數據處理技術在數據挖掘之前使用,大大提高了數據挖掘模式的質量,降低實際挖掘所需要的時間。
  一、數據清理
  首先是處理空缺值,如:要分析某市場的銷售和顧客數據,但顧客的income項沒有記錄,如何處理這類問題
  1、忽略元組:忽略整條記錄
  2、人工填寫空缺值:根據其它資料手工填寫
  3、使用一個全局常量填充空缺值:使所有income項記錄都以一個常量(如:2000)填充
  4、使用屬性的平均值填充空缺值:取得其它記錄中該屬性的平均值進行填充
  5、使用與給定元組屬同一類的所有樣本的平均值:與上面相類似
  6、使用最可能的值填充空缺值:與上面相類似
  然後是處理噪聲數據,
  1、分箱:通過考察周圍的值來平滑存儲數據的值,有兩種方法:按箱平均值平滑,箱中每一個值被箱中的平均值替換;按箱邊界平滑,箱中的最大和最小值被視爲箱邊界,箱中的每一個值被最近的邊界值替換
  2、聚類:簡單來說就是取得相對比較集中的值,相對分散的值忽略不計的方法
  3、迴歸:通過一個合適的函數(如迴歸函數)來平滑數據
  4、計算機和人工檢查結合:即手工處理
  最後是處理不一致數據
  主要方法是參照其它資料,如紙上記錄,人工的加以更正
 
  二、數據集成
  即由多個數據存儲合併數據。
 
  三、數據變換
  將數據轉換成適用於數據挖掘的形式。
 
  四、數據歸約
  數據挖掘時往往數據量非常大,在少量數據上進行挖掘分析需要很長的時間,數據歸約技術可以用來得到數據集的歸約表示,它小得多,但仍然接近於保持原數據的完整性,並結果與歸約前結果相同或幾乎相同。
 
  數據預處理是目前數據挖掘一個熱門的研究方面,畢竟這是由數據預處理的產生背景所決定的--現實世界中的數據幾乎都髒數據。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章