Data Mining Competition中數據缺失值處理

在數據挖掘以及機器學習中,拿到的數據,經常是某些記錄的某些字段是缺失的,面對這種情況,可以有以下幾種處理方法:

1.直接drop這條記錄
2.缺失值用衆數填補
3.缺失值用中位數填補
4.缺失值用rand(mean-std,mean+std)隨機數填補
5.通過其他完整feature,建立model來預測缺失值
6.存在缺失值的數據少的時候,通過其他的feature,人爲判斷其值
7.對於缺失值,填充一個數字或字母表示Nan

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章