Xgboost
Xgboost簡介
Xgboost[1]是由陳天奇提出的一種集成學習方法,要想了解Xgboost,這裏建議先了解決策樹,再瞭解GBDT(Gradient boosting descent tree)即梯度提升樹,再學習理解Xgboost。推薦學習方式,閱讀[1]這篇論文,你將對Xgboost如何處理缺失值,以及模型複雜度控制有更加深刻的理解(注:對論文中正則化方式有疑問,可留言討論)。
Xgboost缺失值處理
Xgboost如何處理缺失值呢,最簡單直觀的方式可以通過下面這個算法流程來表示。實際處理時,可以將缺失值設置成missing=-999或missing=-9999。
這裏解釋一下:這個算法流程圖參考[1],是陳天奇在論文“XGBoost: A Scalable Tree Boosting System”中提出來的,通過自動學習,得出最優分裂方向。
在機器學習領域,也有很多其他缺失值處理的方式,這裏大概列舉一下,包括求均值,補0,插值的方法,one-hot編碼等。
參考文獻:
[1] T. Chen, C. Guestrin, "XGBoost: A Scalable Tree Boosting System" Acm Sigkdd International Conference on Knowledge Discovery & Data Mining, pp.785-794, 2016.點擊打開鏈接