Xgboost如何處理缺失值

Xgboost

Xgboost簡介

Xgboost[1]是由陳天奇提出的一種集成學習方法,要想了解Xgboost,這裏建議先了解決策樹,再瞭解GBDT(Gradient boosting descent tree)即梯度提升樹,再學習理解Xgboost。推薦學習方式,閱讀[1]這篇論文,你將對Xgboost如何處理缺失值,以及模型複雜度控制有更加深刻的理解(注:對論文中正則化方式有疑問,可留言討論)。

 

Xgboost缺失值處理

Xgboost如何處理缺失值呢,最簡單直觀的方式可以通過下面這個算法流程來表示。實際處理時,可以將缺失值設置成missing=-999或missing=-9999。

 

這裏解釋一下:這個算法流程圖參考[1],是陳天奇在論文“XGBoost: A Scalable Tree Boosting System”中提出來的,通過自動學習,得出最優分裂方向。

在機器學習領域,也有很多其他缺失值處理的方式,這裏大概列舉一下,包括求均值,補0,插值的方法,one-hot編碼等。

 

參考文獻:

[1] T. Chen, C. Guestrin, "XGBoost: A Scalable Tree Boosting System" Acm Sigkdd International Conference on Knowledge Discovery & Data Mining, pp.785-794, 2016.點擊打開鏈接

發佈了159 篇原創文章 · 獲贊 354 · 訪問量 13萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章