西瓜書的集成學習

        所謂集成學習,就是集成多個個體學習器來完成同一個任務,集成的方式可以是投票、加權什麼的,這裏的個體學習器可以是決策樹、神經網絡、樸素貝葉斯、SVM等。集成學習針對弱學習器(略強於瞎猜的學習器)的效果更爲明顯,因此通常這裏的個體學習器都比較弱。其次,雖然對弱學習器的效果更明顯,但爲了在得到相同效果下使用更少的學習器,大家還是用強學習器比較好。最後,如果這裏的個體學習器只包括一種學習器,這種集成學習是同質學習,學習的方法通常也叫基學習算法,而這裏的學習器則稱爲基學習器。如果這裏的個體學習器只包括多種學習器,這種集成學習是異質學習,這種集成學習方法(?可以叫異質學習算法),而這裏的學習器則稱爲組件學習器。(爲了便於表述,下文統稱基學習器)

核心(學習器好而不同):然而集成學習中,如果基學習器相互獨立,基學習器越多,集成學習結果越好,並且集成學習的最後結果會趨向於完全不會出錯,而當基學習器夠好時,需要的基學習器就越少。在現實中,基學習器基本不會是獨立的,即好而不同通常是相互矛盾的,對於一個分類任務而言,好的分類器基本是非常相關的,甚至當足夠好的時候,兩個分類器就會完全相同,因此,集成學習的核心是找到好而不同的學習器。

集成方式1(串行,以boosting爲例):使用數據集D以及他們的概率D1,訓練一個分類器,如果這個分類器的準確率大於0.5,則保留記爲h1。然後更新數據集D的概率分佈爲D2,其中D2中加強了h1分錯的D中樣本的概率,然後訓練第二個準確率大於0.5的分類器h2。以此類推,得到h1,h2,h3....hn。最後分類器由這些分類器加權得到,即h=a1*h1+a2*h2+a3*h3...+an*hn,其中的權值由分類器的準確率決定。

集成方式2(並行,以bagging,隨機森林爲例):

2.1 bagging:使用數據集D,隨機有放回採樣出與D具有相同樣本數的D1,D2,D3...,針對D1,D2,D3,各訓練出一個分類器h1,h2,h3....,最後分類結果由這些分類器投票得到。

2.2 隨機森林:與基學習器爲決策樹的bagging方法類似,區別在於bagging的決策樹訓練時選擇劃分屬性時選擇所有屬性中最優的,而隨機森林的基決策樹訓練時,選擇先隨機選擇一個屬性子集,然後從子集中選擇一個最優的。

組合策略:

簡單平均、加權平均(對於數值型輸出,迴歸?)

簡單投票(多者得)、加權投票、絕對多數投票(分類輸出)

學習法:對於數據集D和所有基分類器,對每個基分類器輸出生成一個新的數據集Dht,使用Dht訓練一個學習器來組合這些基學習器的結果

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章