Data Mining Competition中数据缺失值处理

在数据挖掘以及机器学习中,拿到的数据,经常是某些记录的某些字段是缺失的,面对这种情况,可以有以下几种处理方法:

1.直接drop这条记录
2.缺失值用众数填补
3.缺失值用中位数填补
4.缺失值用rand(mean-std,mean+std)随机数填补
5.通过其他完整feature,建立model来预测缺失值
6.存在缺失值的数据少的时候,通过其他的feature,人为判断其值
7.对于缺失值,填充一个数字或字母表示Nan

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章