在數據挖掘的實際工程中,由於數據採集成本、隱私保護等原因,得到的訓練數據會有缺失值,現在介紹幾種處理缺失值的方法。
1、直接刪除有缺失值的實例
該方法主要針對含有缺失值的實例較少的情況,否則,不僅不能充分的利用現有的數據信息,也會使得原有的樣本密度變得更加稀疏。
2、人工填寫缺失值
該方法主要針對只有少量缺失值的情況。
3、使用一個全局的常量填充缺失值
該方法比較簡單,但是用一個全局值代替缺失值,效果未必會好,不一定可靠。
4、使用屬性的中心度量(如均值、中位數)填充缺失值
該方法用得比較多,但是隻有當中心度量比較逼近缺失值的真實值的時候,該方法纔有效。
5、使用與給定實例屬同一類的所有樣本的的屬性的中心度量
在方法4的基礎上,該方法僅考慮屬於同一類的中心度量。
6、使用最可能的值填充缺失值
可以建立模型對缺失值進行預測,然後用預測得到的值填充缺失值,該方法的效果比較好,但是整體比較麻煩。
7、使用樹模型進行空值的處理
該方法是目前用得比較多的方法,很多樹模型或者樹的組合模型中都用了該方法,具體的原理請參考:http://blog.csdn.net/zxd1754771465/article/details/73550971
參考:《數據挖掘概念與技術》 韓家煒