【Machine learning】集成學習(ensemble learning)

“Ensemble methods” is a machine learning paradigwhere multiple(homogenous/heterogeneous)individual leaners are generated and combined forthe same problem.

集成學習通過構建並結合多個學習器來完成學習任務,有時也被成爲多分類器系統。

一、介紹

集成學習的一般結構:

1.先生成一組個體學習器

2.再用某種策略將他們結合起來。

集成學習分爲同質和異質。同質的集成包含的同種類型的個體學習器,通常稱爲基學習器;異質的當然包含的是不同的個體學習器,通常稱爲組件學習器

集成學習可顯著提高“弱學習器”的泛化能力。

學習的關鍵:

個體學習器應該“好而不同”。即個體學習器有一定的“準確性”(錯誤率小一點),並且要有“多樣性”,即學習器間具有差異。

根據個體學習器的生成方式,目前的集成學習方法大致分爲兩大類:

1.個體學習器之間存在強依賴關係、必須串行生成的序列化方法,比如Boosting

2.個體學習之間不存在強依賴關係(相對獨立),可同時生成的並行化方法,比如Bagging和“隨機森林”

 

二、Boosting(串行生成)

1.機制:

先從初始訓練集訓練出一個基學習器,再根據基學習器的表現對訓練樣本分佈進行調整,使得先前學習器做錯的訓練樣本受到更多的關注,然後基於調整後的樣本分佈來訓練下一個基學習器;如此重複進行,直至得到T個學習器,最終將這T個學習器進行加權結合。

2.代表:adaboost

先給初始樣本集一個分佈,每個樣本有一個初始權重

使錯誤率最低的情況下得到一個學習器()

增大使用這個學習器學習,學習錯誤的樣本的權值,得到一組新的樣本權值

在新的樣本上學的新的學習器,如此迭代下去。

2.分析優缺點:

從偏差-方差分解的角度看,boosting主要關注降低偏差,因此boosting能基於泛化能力相當弱的學習器構建出很強的集成。

 

三、Bagging(並行生成)

1.機制:

基於自助採樣法,給定包含m個樣本的數據集,我們先隨機取出一個樣本放入採樣集中,再放回

如此循環n次,得到一個訓練集。初始訓練集中約有63.2%的樣本出現在採樣集中。

循環上述兩步T次,得到T個採樣集,基於每個採樣集訓練出一個基學習器,再將這些學習器進行結合。

2.優缺點:

剩餘的36.8%的樣本可用於驗證集來對學習器的泛化性能進行“包外估計”。

從偏差-方差來分析:關注降低方差,因此他在不剪支的鉅額擦書、神經網絡等易受樣本擾動的學習器上效用更爲明顯。

 

四、隨機森林(並行生成)

1.機制:

是bagging的一個擴展變形,在以決策樹爲基學習器構建bagging集成的基礎上,進一步在決策樹的訓練過程中引入了隨機屬性的選擇。具體來說,傳統決策樹在選擇劃分屬性時是在當前節點的屬性集合中選擇一個最優屬性,而在RF中,對及決策樹的每個節點,先從該節點的屬性集合中隨機選擇一個包含K個屬性的子集,然後再從整個k個子集中選擇一個最優屬性用於劃分。 

 

五、結合策略

1.平均法

 加權平均法

2.投票法

 絕對多數投票法

 相對多數投票法

 加權投票法

3.學習法

通過另一個學習器進行結合。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章