隨機森林

*********************隨機森林概述***************************

在我們學習隨機森林前,要對決策樹有一定了解,尤其對其中決策樹生成算法要做理解,詳見博客。

森林顧名思義,由很多棵樹組成,這一顆顆樹就是我們需要構造的決策樹,由這些樹組成的森林就是隨機森林,

當我們輸入一個要預測分類的數據時,每個決策樹都會接收數據併產生一個分類結果,然後採用‘投票機制’,認爲哪個結果出現次數最多就歸爲哪一類。


*********************隨機森林構造過程**********************

隨機森林構造過程分爲四步:隨機樣本的選取,隨機選擇特徵,構建決策樹,隨機森林投票分類


1.隨機樣本的選取

我們採用bootstrap自助法進行樣本選擇,假設有訓練數據有N個,我們有放回的採取N個樣本,構成新的訓練集。簡單來說,就是取樣N次,每次隨機選取一個樣本後,再放回,直至選取夠N個樣本。每次構造決策樹時都要進行一次隨機樣本的選取。


2.隨機選擇特徵

對於每顆要生成的決策樹,我們要從p維的特徵中選取m個特徵來進行構造,m的取值關係到決策樹之間的關聯性,m大關聯性就大,誤差就大,所以m選取一般要比p小,一般都選在p的平方根


3.構建決策樹

這一步我們可以參考博客中的決策樹算法,可以採用信息熵或者GINI係數作爲分裂特徵的選擇,關於構建多少顆樹,一般選擇在100左右,有關詳見http://www.docin.com/p-1188586178.html,注意我們得到的決策樹可以不進行剪枝,因爲前面兩個隨機選擇,使得樹在一定程度上能減輕過擬合,但不能完全消除過擬合,過擬合和樣本質量,樣本數量,樣本特徵數量和特徵相關性都有關係。


4.隨機森林投票

當所有決策樹構造完成時,我們的隨機森林就形成了,現在就可以對要預測的數據進行分類,採用專家投票機制,選定出現次數最多的類別作爲預測的類別


******************隨機森林的優缺點***************************

    優點:

 

  • 它能夠處理很高維度(feature很多)的數據,並且不用做特徵選擇;
  • 由於隨機選擇樣本導致的每次學習決策樹使用不同訓練集,所以可以一定程度上避免過擬合;

 

    缺點:

 

  • 隨機森林已經被證明在某些噪音較大的分類或迴歸問題上會過擬合;
  • 對於有不同級別的屬性的數據,級別劃分較多的屬性會對隨機森林產生更大的影響,所以隨機森林在這種數據上產出的屬性權值是不可信的




發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章