在數據挖掘以及機器學習中,拿到的數據,經常是某些記錄的某些字段是缺失的,面對這種情況,可以有以下幾種處理方法:
1.直接drop這條記錄
2.缺失值用衆數填補
3.缺失值用中位數填補
4.缺失值用rand(mean-std,mean+std)隨機數填補
5.通過其他完整feature,建立model來預測缺失值
6.存在缺失值的數據少的時候,通過其他的feature,人爲判斷其值
7.對於缺失值,填充一個數字或字母表示Nan
在數據挖掘以及機器學習中,拿到的數據,經常是某些記錄的某些字段是缺失的,面對這種情況,可以有以下幾種處理方法:
1.直接drop這條記錄
2.缺失值用衆數填補
3.缺失值用中位數填補
4.缺失值用rand(mean-std,mean+std)隨機數填補
5.通過其他完整feature,建立model來預測缺失值
6.存在缺失值的數據少的時候,通過其他的feature,人爲判斷其值
7.對於缺失值,填充一個數字或字母表示Nan