西瓜書的集成學習

原創

2020-05-11 05:20

所謂集成學習，就是集成多個個體學習器來完成同一個任務，集成的方式可以是投票、加權什麼的，這裏的個體學習器可以是決策樹、神經網絡、樸素貝葉斯、SVM等。集成學習針對弱學習器（略強於瞎猜的學習器）的效果更爲明顯，因此通常這裏的個體學習器都比較弱。其次，雖然對弱學習器的效果更明顯，但爲了在得到相同效果下使用更少的學習器，大家還是用強學習器比較好。最後，如果這裏的個體學習器只包括一種學習器，這種集成學習是同質學習，學習的方法通常也叫基學習算法，而這裏的學習器則稱爲基學習器。如果這裏的個體學習器只包括多種學習器，這種集成學習是異質學習，這種集成學習方法（？可以叫異質學習算法），而這裏的學習器則稱爲組件學習器。（爲了便於表述，下文統稱基學習器）

核心（學習器好而不同）：然而集成學習中，如果基學習器相互獨立，基學習器越多，集成學習結果越好，並且集成學習的最後結果會趨向於完全不會出錯，而當基學習器夠好時，需要的基學習器就越少。在現實中，基學習器基本不會是獨立的，即好而不同通常是相互矛盾的，對於一個分類任務而言，好的分類器基本是非常相關的，甚至當足夠好的時候，兩個分類器就會完全相同，因此，集成學習的核心是找到好而不同的學習器。

集成方式1（串行，以boosting爲例）：使用數據集D以及他們的概率D1，訓練一個分類器，如果這個分類器的準確率大於0.5，則保留記爲h1。然後更新數據集D的概率分佈爲D2,其中D2中加強了h1分錯的D中樣本的概率，然後訓練第二個準確率大於0.5的分類器h2。以此類推，得到h1,h2,h3....hn。最後分類器由這些分類器加權得到，即h=a1*h1+a2*h2+a3*h3...+an*hn，其中的權值由分類器的準確率決定。

集成方式2（並行，以bagging,隨機森林爲例）：

2.1 bagging:使用數據集D,隨機有放回採樣出與D具有相同樣本數的D1，D2，D3...,針對D1，D2，D3，各訓練出一個分類器h1,h2,h3....，最後分類結果由這些分類器投票得到。

2.2 隨機森林：與基學習器爲決策樹的bagging方法類似，區別在於bagging的決策樹訓練時選擇劃分屬性時選擇所有屬性中最優的，而隨機森林的基決策樹訓練時，選擇先隨機選擇一個屬性子集，然後從子集中選擇一個最優的。

組合策略：

簡單平均、加權平均（對於數值型輸出，迴歸?）

簡單投票（多者得）、加權投票、絕對多數投票（分類輸出）

學習法：對於數據集D和所有基分類器，對每個基分類器輸出生成一個新的數據集Dht，使用Dht訓練一個學習器來組合這些基學習器的結果

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

西瓜書的集成學習

美團一面：項目中有 10000 個 if else 如何優化？想了半天，被問懵了！

京東面試：如何進行JVM調優？

Python 將PowerPoint (PPT/PPTX) 轉爲HTML

SQL優化-20231016

OLTR Large-Scale Long-Tailed Recognition in an OpenWorld

使用類內散度與類間散度進行特徵選擇

機器學習之對數機率迴歸理解

機器學習之線性模型的訓練trick

機器學習之線性模型的訓練過程

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結