數據預處理(part3)--缺失值處理和區間化

學習筆記,僅供參考,有錯必糾




處理缺失值


在很多時候,某些預測變雖會在一些樣本上缺少觀測。這些缺失值可能是結構性缺失,如一個男子的後代數目.

瞭解缺失值發生的原因是很重要的,首先,應該調查數據缺失是否和結果變量有關,這種情形被稱爲"有信息量的缺失",因爲缺失情況本身是結構性的。

缺失數據不應該和刪失數據相混淆,對於後者具體的觀測依是缺失了,但我們仍知道一些信息,例如,出租碟片公司在建模時如果使用用戶持有碟片時長這一變量,如果客戶還未歸還影碟,那麼我們就不知道確切的持有時間,但是我們知道該時間一定要比從該客戶租影片到現在的時間長。

與我們建立一些着眼於解釋和推斷的傳統統計模型時,會對刪失機制做出一此假設,從而將刪失信息列入考慮範圍之內。對於預測模型,更常見的是將這些數據當作簡單缺失數據看待,或者將刪失處的取值當作觀測數據。例如,當一個樣本超過可檢測精度範圍時,可以將精度界限視爲觀測值,也常使用從零到檢測精度界限區間的一個隨機值作爲觀測值。

缺失值更經常和相應的預測變量有關而不是和樣本相關,如此,缺失數據更可能集中在某些預測子集中,而不是隨機出現在所有樣品之中。有此時候,某預測變量含有的缺失數據比例可能高到足以將該預測變量從模型中刪除。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章