缺失值的處理方法

原創

泉眼里的气泡

2018-08-29 19:54

在數據挖掘的實際工程中，由於數據採集成本、隱私保護等原因，得到的訓練數據會有缺失值，現在介紹幾種處理缺失值的方法。

1、直接刪除有缺失值的實例

該方法主要針對含有缺失值的實例較少的情況，否則，不僅不能充分的利用現有的數據信息，也會使得原有的樣本密度變得更加稀疏。

2、人工填寫缺失值

該方法主要針對只有少量缺失值的情況。

3、使用一個全局的常量填充缺失值

該方法比較簡單，但是用一個全局值代替缺失值，效果未必會好，不一定可靠。

4、使用屬性的中心度量（如均值、中位數）填充缺失值

該方法用得比較多，但是隻有當中心度量比較逼近缺失值的真實值的時候，該方法纔有效。

5、使用與給定實例屬同一類的所有樣本的的屬性的中心度量

在方法4的基礎上，該方法僅考慮屬於同一類的中心度量。

6、使用最可能的值填充缺失值

可以建立模型對缺失值進行預測，然後用預測得到的值填充缺失值，該方法的效果比較好，但是整體比較麻煩。

7、使用樹模型進行空值的處理

該方法是目前用得比較多的方法，很多樹模型或者樹的組合模型中都用了該方法，具體的原理請參考：http://blog.csdn.net/zxd1754771465/article/details/73550971

參考：《數據挖掘概念與技術》韓家煒

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

機器學習與數據挖掘之生成模型與判別模型

參考文獻：機器學習與數據挖掘參考文獻監督學習的任務是學習一個模型，應用這一模型，對給定的輸入預測相應的輸出，這個模型的一般形式爲決策函數： Y=f(X) 或者條件概率分佈： P(Y|X) 監督學習方法分爲生成方法和判別方法。所學到的模

2020-07-03 04:41:20

機器學習與數據挖掘參考文獻

《統計學習方法》李航《機器學習》周志華

2020-07-03 04:41:20

機器學習與數據挖掘之樸素貝葉斯法

參考文獻：機器學習與數據挖掘參考文獻樸素貝葉斯法是基於貝葉斯定理與特徵條件獨立假設的分類方法。對分類任務來說，在所有相關概率都已知的理想情形下，貝葉斯決策論考慮如何基於這些概率損失來選擇最優的類別標記。即對每個樣本x，它選擇能使後驗概

2020-07-03 04:41:20

spark DataFrame 基本操作函數

DataFrame 的函數Action 操作 1、 collect() ,返回值是一個數組，返回dataframe集合所有的行 2、 collectAsList() 返回值是一個Java類型的數組，返回dataframe集合所有的行 3、

2020-06-30 20:58:56

Auto Machine Learning 自動化機器學習筆記

適讀人羣：有機器學習算法基礎1. auto-sklearn 能 auto 到什麼地步？在機器學習中的分類模型中：常規 ML framework 如下圖灰色部分：導入數據-數據清洗-特徵工程-分類器-輸出預測值

2020-06-30 19:50:21

自動機器學習之auto-sklearn入門

當我們做完了特徵工程之後，就可以代入模型訓練和預測，對於模型的選擇及調參，主要根據分析者的經驗。在具體使用時，經常遇到同一批數據，同一種模型，不同的分析者得出的結果相差很多。前面學習了幾種常用的機器學習方法原理以及適用場景，對於完全沒有

2020-06-30 19:50:21

在Linux Centos7 上使用pyspark Notebook

首先安裝anaconda 參考: https://blog.csdn.net/levy_cui/article/details/80898739 https://blog.csdn.net/levy_cui/article/details

2020-06-30 19:50:10

xgboost中XGBClassifier()參數

#常規參數 booster gbtree 樹模型做爲基分類器（默認） gbliner 線性模型做爲基分類器 silent silent=0時，輸出中間過程（默認） silent=1時，不輸出中間過程 nt

2020-06-30 19:50:09

pyspark提交代碼到yarn模式，報錯ImportError: No module

上一篇：PySpark任務在YARN集羣上運行關聯python包numpy pandas scipy 等問題：在提交ALS.train代碼到yarn模式的時候，會出現如下報錯： import numpy as np Impor

2020-06-30 19:50:08

Spark ALS 協同過濾（CF）如何將Str類型的userID或itemID轉換爲Rating中要求的int類型

/** * 問題： * 在對數據進行訓練時，Rating要求的是int,int,double，但是現有的數據是long,string,double類型，使用toInt進行轉換時依然會報錯，這是因爲long類型轉換

2020-06-30 19:50:06

自動機器學習之Auto-Keras入門

對於訓練深度學習，設計神經網絡結構是其中技術含高最高的任務，優秀的網絡架構往往依賴建構模型的經驗，專業領域知識，以及大量的算力試錯。實際應用中往往基於類似功能的神經網絡微調生成新的網絡結構。 Auto-Keras是一個離線使用的開源庫，用

2020-06-30 19:49:59

機器學習系列(15)_SVM碎碎念part3：如何找到最優分離超平面

作者：寒小陽時間：2016年9月。出處：http://blog.csdn.net/han_xiaoyang/article/details/52683653 聲明：版權所有，轉載請聯繫作者並註明出處 1.引言是的，咱們

2020-06-25 11:30:21

機器學習系列(13)_SVM碎碎念part1：間隔

作者：寒小陽時間：2016年9月。出處：http://blog.csdn.net/han_xiaoyang/article/details/52678373 聲明：版權所有，轉載請聯繫作者並註明出處 1.引言欠的總歸是

2020-06-25 11:30:19

線性鑑別分析LDA

學習了LDA算法，做個總結，如果有錯誤，還望指教！ LDA的目標應用統計方法解決模式識別問題時，一再碰到的問題之一是維數問題。[1] LDA的目標即是通過投影從高維樣本中抽取分類信息、降低維數，使投影后的樣本有最大的類間距離和最小的類內

2020-06-19 21:51:35

機器學習/數據挖掘知識整理

目錄一、常用排序算法二、正負樣本不平衡處理方法總結三、過擬合和欠擬合 1、過擬合 2、欠擬合四、向量的相似度計算常用方法五、模型參數和超參數六、模型評價 1、準確率Accuracy、查準率(精確率)precision、查全率(

2020-06-09 17:42:30

24小時熱門文章

最新文章

最新評論文章