集成學習(bagging與boosting)

集成學習(bagging與boosting)


將多個弱學習器進行結合,從而獲得比單一學習器顯著優越的泛化性能。
主要分爲bagging和boosting兩種集成方法。

算法比較

bagging:個體學習器之間存在強依賴關係,必須串行生成的序列化方法。
算法特徵:

  • 樣本選擇:從訓練集中進行有放回的均勻採樣,各輪訓練集之間是獨立的。
  • 樣例權重:使用均勻取樣,每個樣例的權重相等。
  • 預測函數:整體模型的期望近似於基模型的期望。
  • 計算模式:各個預測函數可以並行生成。

訓練過程:

  • 自助採樣法:給定包含m個樣本的數據集,隨機從訓練集中取出一個樣本放入採樣集中,經過m次有放回的隨機採樣操作,得到含有m個樣本的採樣集,初始樣本中有的樣本在採樣集中多次出現。
  • 通過自助採樣法採集T個包含m個訓練樣本的採樣集。
  • 基於每個採樣集訓練一個基學習器。
  • 再將這些學習器進行結合。通常對分類問題採用簡單投票法,對迴歸問題採用簡單平均法。

boosting:個體學習器之間不存在強依賴關係,可同時生成的並行化方法。
算法特徵:

  • 樣本選擇:每一輪的訓練集不變,只是訓練集中每個樣例在分類器中的權重發生變化。而權值是根據上一輪的分類結果進行調整。
  • 樣例權重:根據錯誤率不斷調整樣例的權值,錯誤率越大則權重越大。
  • 預測函數:每個弱分類器都有相應的權重,對於分類誤差小的分類器會有更大的權重。
  • 計算模式:各個預測函數只能順序生成,因爲後一個模型參數需要前一輪模型的結果。

訓練過程:

  • 先從初始訓練集訓練出一個基學習器
  • 再根據基學習器的表現對訓練樣本分佈進行調整
  • 使得先前基學習器做錯的訓練樣本在後續受到更多關注
  • 然後基於調整後的樣本分佈來訓練下一個基學習器
  • 如此重複進行,直至基學習器數目達到事先指定的值T,最終將這T個基學習器進行加權結合。

方差與偏差

在這裏插入圖片描述

  • 偏差: 度量學習算法的期望預測與真實結果的偏離程度,也叫擬合能力。
  • 方差: 度量了同樣大小的訓練集的變動所導致的學習性能的變化,即刻畫了數據擾動造成的影響。
  • bagging更關注於減小方差。 因此它在不剪枝決策樹、神經網絡等易受樣本擾動的學習器上效果更明顯。
  • boosting更關注於減小偏差。 因此boosting能基於泛化能力相當弱的學習器構建出很強的集成。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章