集成學習(ensemble learning)
【內容包含 第八章】
個體與集成
集成學習一般是多個個體學習器以某種策略結合起來,其中的個體學習器可以是同質(homogeneous)的,成爲“基學習算法”,也可以是異質(heterogenous)的,個體學習器成爲組件學習器(component learner)。
目前的集成學習主要分兩類:
1.串行進行的序列化方法,比如Boosting
2.同時進行的並行化方法,比如隨機森林(Random Forest)
Boosting
基本思想:先訓練出一個基學習器,再根據驗證結果對訓練樣本分佈做調整,再訓練下一個基學習器,最終訓練出T個基學習器,然後將T個基學習器加權結合。
AdaBoost
加性模型(additive model),基學習器的線性組合