隨機森林

隨機森林

原創

绿岛小微米

2020-02-24 05:22

*********************隨機森林概述***************************

在我們學習隨機森林前，要對決策樹有一定了解，尤其對其中決策樹生成算法要做理解，詳見博客。

森林顧名思義，由很多棵樹組成，這一顆顆樹就是我們需要構造的決策樹，由這些樹組成的森林就是隨機森林，

當我們輸入一個要預測分類的數據時，每個決策樹都會接收數據併產生一個分類結果，然後採用‘投票機制’，認爲哪個結果出現次數最多就歸爲哪一類。

*********************隨機森林構造過程**********************

隨機森林構造過程分爲四步：隨機樣本的選取，隨機選擇特徵，構建決策樹，隨機森林投票分類

1.隨機樣本的選取

我們採用bootstrap自助法進行樣本選擇，假設有訓練數據有N個,我們有放回的採取N個樣本，構成新的訓練集。簡單來說，就是取樣N次，每次隨機選取一個樣本後，再放回，直至選取夠N個樣本。每次構造決策樹時都要進行一次隨機樣本的選取。

2.隨機選擇特徵

對於每顆要生成的決策樹，我們要從p維的特徵中選取m個特徵來進行構造，m的取值關係到決策樹之間的關聯性，m大關聯性就大，誤差就大，所以m選取一般要比p小，一般都選在p的平方根

3.構建決策樹

這一步我們可以參考博客中的決策樹算法，可以採用信息熵或者GINI係數作爲分裂特徵的選擇，關於構建多少顆樹，一般選擇在100左右，有關詳見http://www.docin.com/p-1188586178.html，注意我們得到的決策樹可以不進行剪枝，因爲前面兩個隨機選擇，使得樹在一定程度上能減輕過擬合，但不能完全消除過擬合，過擬合和樣本質量，樣本數量，樣本特徵數量和特徵相關性都有關係。

4.隨機森林投票

當所有決策樹構造完成時，我們的隨機森林就形成了，現在就可以對要預測的數據進行分類，採用專家投票機制，選定出現次數最多的類別作爲預測的類別

******************隨機森林的優缺點***************************

優點：

它能夠處理很高維度（feature很多）的數據，並且不用做特徵選擇；
由於隨機選擇樣本導致的每次學習決策樹使用不同訓練集，所以可以一定程度上避免過擬合；

缺點：

隨機森林已經被證明在某些噪音較大的分類或迴歸問題上會過擬合；
對於有不同級別的屬性的數據，級別劃分較多的屬性會對隨機森林產生更大的影響，所以隨機森林在這種數據上產出的屬性權值是不可信的

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

高效率使用windows

智能決策新時代：可視化大屏是否能夠超越傳統白板？

解密Prompt系列28. LLM Agent之金融領域摸索：FinMem & FinAgent

分享幾個.NET開源的AI和LLM相關項目框架

插值法-解決數據預處理中的缺失

決策樹-Cart生成和剪枝算法

GBDT(生)

python-關於函數間參數傳遞問題(注意理解，很容易混淆)

PCA降維的原理及步驟

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結