数据预处理(part3)--缺失值处理和区间化

学习笔记,仅供参考,有错必纠




处理缺失值


在很多时候,某些预测变虽会在一些样本上缺少观测。这些缺失值可能是结构性缺失,如一个男子的后代数目.

了解缺失值发生的原因是很重要的,首先,应该调查数据缺失是否和结果变量有关,这种情形被称为"有信息量的缺失",因为缺失情况本身是结构性的。

缺失数据不应该和删失数据相混淆,对于后者具体的观测依是缺失了,但我们仍知道一些信息,例如,出租碟片公司在建模时如果使用用户持有碟片时长这一变量,如果客户还未归还影碟,那么我们就不知道确切的持有时间,但是我们知道该时间一定要比从该客户租影片到现在的时间长。

与我们建立一些着眼于解释和推断的传统统计模型时,会对删失机制做出一此假设,从而将删失信息列入考虑范围之内。对于预测模型,更常见的是将这些数据当作简单缺失数据看待,或者将删失处的取值当作观测数据。例如,当一个样本超过可检测精度范围时,可以将精度界限视为观测值,也常使用从零到检测精度界限区间的一个随机值作为观测值。

缺失值更经常和相应的预测变量有关而不是和样本相关,如此,缺失数据更可能集中在某些预测子集中,而不是随机出现在所有样品之中。有此时候,某预测变量含有的缺失数据比例可能高到足以将该预测变量从模型中删除。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章