● 每週一言

因年齡增長所帶來的理解力，與努力無關。

導語

前面介紹了決策樹算法應用之一的GBDT模型，本節講講決策樹另一個比較火的應用模型，隨機森林。與GBDT模型相比，同樣屬於集成學習，隨機森林模型的原理更爲直觀簡潔，性能也同樣十分強悍。那麼，隨機森林算法模型的原理與思想是怎樣的？

隨機森林

所謂多樹成林，Random forests（或者Random decision forests）隨機森林，顧名思義由多棵決策樹構成，這些決策樹都是CART（Classification And Regression Tree）分類或迴歸樹。

隨機森林的算法核心思想有二：採樣和 完全分裂。採樣又分爲行採樣和列採樣，這裏的行與列對應的就是樣本與特徵。完全分裂指的是決策樹每一次分裂擴展節點時，能分裂必須分裂，分裂依據可以是信息增益或者增益率（具體可參見機器學習方法篇(3)——決策樹入門）。

對於行採樣，模型從M條數據集中隨機採樣m條數據，一般情況下m取M的平方根大小，分別作爲每一棵決策樹的訓練集。行採樣保證了每棵決策樹使用的訓練集各不相同，這在一定程度上抑制了over-fitting問題。

對於列採樣，每一棵決策樹都從M個特徵中隨機挑選m個特徵作爲節點分裂特徵來計算，一般情況下m也取M的平方根大小。列採樣具體又分爲兩種方式，一種是全局列採樣，即同一棵樹的建樹過程均採用同一批採樣特徵；另一種是局部列採樣，即每一次節點分裂的時候均單獨隨機挑選m個特徵進行擴展。列採樣進一步保證了隨機森林不會出現over-fitting問題。

隨機森林的最終輸出由每一棵決策樹的結果共同決定。如果是分類樹則通過投票產生最終分類，如果是迴歸樹則取所有結果的平均值。敬請期待下節內容。

結語

感謝各位的耐心閱讀，後續文章於每週日奉上，敬請期待。歡迎大家關注小鬥公衆號 對半獨白！

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

機器學習方法篇(10)------隨機森林

● 每週一言

導語

隨機森林

結語

salesforce零基礎學習（一百三十八）零碎知識點小總結（十）

關於接口協議，你必須要知道這些！

一鍵自動化博客發佈工具,用過的人都說好(頭條篇)

01 穩定性（一）如何應對事故並做好覆盤？

美團一面：項目中有 10000 個 if else 如何優化？想了半天，被問懵了！

京東面試：如何進行JVM調優？

線程池那些坑爹的參數-核心線程數&最大線程數&工作隊列

Stream流常用方法總結

機器學習方法篇(10)------隨機森林

NOIP回憶錄

二分查找與補丁規避

機器學習方法篇(12)------拉格朗日乘子法

機器學習方法篇(11)------SVM入門

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結