機器學習方法篇(10)------隨機森林

● 每週一言

因年齡增長所帶來的理解力,與努力無關。

導語

前面介紹了決策樹算法應用之一的GBDT模型,本節講講決策樹另一個比較火的應用模型,隨機森林。與GBDT模型相比,同樣屬於集成學習,隨機森林模型的原理更爲直觀簡潔,性能也同樣十分強悍。那麼,隨機森林算法模型的原理與思想是怎樣的?

隨機森林

所謂多樹成林,Random forests(或者Random decision forests)隨機森林,顧名思義由多棵決策樹構成,這些決策樹都是CART(Classification And Regression Tree)分類或迴歸樹。

fig1

隨機森林的算法核心思想有二:採樣完全分裂採樣又分爲行採樣和列採樣,這裏的行與列對應的就是樣本與特徵。完全分裂指的是決策樹每一次分裂擴展節點時,能分裂必須分裂,分裂依據可以是信息增益或者增益率(具體可參見 機器學習方法篇(3)——決策樹入門)。

對於行採樣,模型從M條數據集中隨機採樣m條數據,一般情況下m取M的平方根大小,分別作爲每一棵決策樹的訓練集。行採樣保證了每棵決策樹使用的訓練集各不相同,這在一定程度上抑制了over-fitting問題。

fig2

對於列採樣,每一棵決策樹都從M個特徵中隨機挑選m個特徵作爲節點分裂特徵來計算,一般情況下m也取M的平方根大小。列採樣具體又分爲兩種方式,一種是全局列採樣,即同一棵樹的建樹過程均採用同一批採樣特徵;另一種是局部列採樣,即每一次節點分裂的時候均單獨隨機挑選m個特徵進行擴展。列採樣進一步保證了隨機森林不會出現over-fitting問題。
fig3

隨機森林的最終輸出由每一棵決策樹的結果共同決定。如果是分類樹則通過投票產生最終分類,如果是迴歸樹則取所有結果的平均值。敬請期待下節內容。

結語

感謝各位的耐心閱讀,後續文章於每週日奉上,敬請期待。歡迎大家關注小鬥公衆號 對半獨白

face

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章