缺失值的處理方法

在數據挖掘的實際工程中,由於數據採集成本、隱私保護等原因,得到的訓練數據會有缺失值,現在介紹幾種處理缺失值的方法。

1、直接刪除有缺失值的實例

該方法主要針對含有缺失值的實例較少的情況,否則,不僅不能充分的利用現有的數據信息,也會使得原有的樣本密度變得更加稀疏。

2、人工填寫缺失值

該方法主要針對只有少量缺失值的情況。

3、使用一個全局的常量填充缺失值

該方法比較簡單,但是用一個全局值代替缺失值,效果未必會好,不一定可靠。

4、使用屬性的中心度量(如均值、中位數)填充缺失值

該方法用得比較多,但是隻有當中心度量比較逼近缺失值的真實值的時候,該方法纔有效。

5、使用與給定實例屬同一類的所有樣本的的屬性的中心度量

   在方法4的基礎上,該方法僅考慮屬於同一類的中心度量。

6、使用最可能的值填充缺失值

可以建立模型對缺失值進行預測,然後用預測得到的值填充缺失值,該方法的效果比較好,但是整體比較麻煩。

7、使用樹模型進行空值的處理

該方法是目前用得比較多的方法,很多樹模型或者樹的組合模型中都用了該方法,具體的原理請參考:http://blog.csdn.net/zxd1754771465/article/details/73550971


參考:《數據挖掘概念與技術》 韓家煒

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章