集成學習（bagging與boosting）

原創

2019-09-04 21:36

集成學習（bagging與boosting）

將多個弱學習器進行結合，從而獲得比單一學習器顯著優越的泛化性能。
主要分爲bagging和boosting兩種集成方法。

算法比較

bagging：個體學習器之間存在強依賴關係，必須串行生成的序列化方法。
算法特徵：

樣本選擇：從訓練集中進行有放回的均勻採樣，各輪訓練集之間是獨立的。
樣例權重：使用均勻取樣，每個樣例的權重相等。
預測函數：整體模型的期望近似於基模型的期望。
計算模式：各個預測函數可以並行生成。

訓練過程：

自助採樣法：給定包含m個樣本的數據集，隨機從訓練集中取出一個樣本放入採樣集中，經過m次有放回的隨機採樣操作，得到含有m個樣本的採樣集，初始樣本中有的樣本在採樣集中多次出現。
通過自助採樣法採集T個包含m個訓練樣本的採樣集。
基於每個採樣集訓練一個基學習器。
再將這些學習器進行結合。通常對分類問題採用簡單投票法，對迴歸問題採用簡單平均法。

boosting：個體學習器之間不存在強依賴關係，可同時生成的並行化方法。
算法特徵：

樣本選擇：每一輪的訓練集不變，只是訓練集中每個樣例在分類器中的權重發生變化。而權值是根據上一輪的分類結果進行調整。
樣例權重：根據錯誤率不斷調整樣例的權值，錯誤率越大則權重越大。
預測函數：每個弱分類器都有相應的權重，對於分類誤差小的分類器會有更大的權重。
計算模式：各個預測函數只能順序生成，因爲後一個模型參數需要前一輪模型的結果。

訓練過程：

先從初始訓練集訓練出一個基學習器
再根據基學習器的表現對訓練樣本分佈進行調整
使得先前基學習器做錯的訓練樣本在後續受到更多關注
然後基於調整後的樣本分佈來訓練下一個基學習器
如此重複進行，直至基學習器數目達到事先指定的值T，最終將這T個基學習器進行加權結合。

方差與偏差

偏差: 度量學習算法的期望預測與真實結果的偏離程度，也叫擬合能力。
方差: 度量了同樣大小的訓練集的變動所導致的學習性能的變化，即刻畫了數據擾動造成的影響。
bagging更關注於減小方差。因此它在不剪枝決策樹、神經網絡等易受樣本擾動的學習器上效果更明顯。
boosting更關注於減小偏差。因此boosting能基於泛化能力相當弱的學習器構建出很強的集成。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

CART實現

基於R的CART的實現包有tree,rpart. tree rpart

2020-07-07 22:26:30

Ridge regression

參考文獻 1.Hoerl A E, Kennard R W. Ridge regression: Biased estimation for nonorthogonal problems[J]. Technometrics, 19

2020-07-07 22:26:30

Python實現kd樹

kd樹的數據結構和二叉樹類似，每個節點存有當前節點的數值，左右子樹的節點，和以當前節點爲根節點的子樹的劃分維度。 class KdNode: def __init__(self, dim, val, left=None, ri

2020-07-07 00:33:04

PCA方法Python代碼實現

關於PCA方法的原理這裏就不介紹了，網絡上很多文章寫得都很好，這裏給出以三維點集的PCA爲例，在python裏實現PCA方法。 PCA方法的主要步驟是：數據中心化計算協方差矩陣根據協方差矩陣計算出特徵值和特徵向量 python代碼如

2020-07-07 00:33:04

hadoop 簡單入門與streaming常用配置參數說明

1. Hadoop包含兩核心部分 hdfs Hadoop distribute file system -- hadoop分佈式文件系統，存儲數據 Namenode、Datanode 常用命令形式：hadoop fs -ls / h

2020-07-06 23:19:09

假設空間版本空間&查全率查準率

一、假設空間版本空間根據P4表1.1和P5圖1.1得，假設空間爲： 1 色澤＝＊，根蒂＝＊，敲聲＝＊2 色澤＝青綠，根蒂＝＊，敲聲＝＊3 色澤＝烏黑，根蒂＝＊，敲聲＝＊4 色澤

liangyingyi1006

2020-07-04 10:41:01

Transformers與圖神經網絡的關係，我們能從transformer學習到什麼？

1、導讀這個觀點的目的是構建Transformer結構背後的NLP上的直覺，以及與圖神經網絡的聯繫。圖深度學習”聽起來很厲害，但有什麼大的商業成功的故事嗎？它有沒有被部署在實際app中？除了Pinterest、阿里巴巴和Tw

BUAA～冬之恋

2020-07-04 03:47:48

機器學習——分類算法之決策樹

機器學習——分類算法之決策樹前言1、信息熵2、條件熵ID3算法C4.5決策樹CART決策樹1、CART決策樹的分類算法2、CART決策樹的迴歸算法剪枝1、預剪枝2、後剪枝連續值和缺失值的處理1、連續值的處理2、缺失值的處理前言

2020-07-03 16:48:56

機器學習——分類算法之感知機

機器學習——分類算法之感知機前言符號函數感知機模型感知機算法1、原始形式2、對偶形式代碼前言感知機算法（perceptron）是用於二分類的線性分類模型，將輸入實例劃分爲正例和負例的一個超平面，屬於判別模型。感知機算法旨在求出

2020-07-03 16:10:50

機器學習——貝葉斯算法和樸素貝葉斯算法

機器學習——分類算法之貝葉斯算法和樸素貝葉斯算法前言一、貝葉斯算法算法示例二、樸素貝葉斯分類器1、貝葉斯決策論2、多元正太分佈參數的極大似然估計3、樸素貝葉斯分類器前言這部分的公式推導較多，涉及到了極大似然估計和貝葉斯估計，要

2020-07-03 16:10:50

機器學習——分類算法之邏輯迴歸

機器學習——分類算法之邏輯迴歸前言邏輯迴歸(Logistic Regression)1、Sigmoid函數2、算法推導3、代碼前言邏輯迴歸也被稱爲對數機率迴歸，注意這裏面說的迴歸並不是真正意義上的迴歸算法，其實它是一個經典的分

2020-07-03 16:10:50

邏輯迴歸解決多分類問題

邏輯迴歸解決多分類問題第一種方式：從類別入手1、OVO(one vs one)2、OVR(One Vs Rest)第二種方法：從算法入手傳統的邏輯迴歸只能處理二分類問題，對於多分類任務，主要有如下兩種方案。第一種方式：從類別入

2020-07-03 16:10:50

機器學習---線性迴歸算法梳理

線性迴歸算法梳理任務1 - 線性迴歸算法梳理一、基本概念二、線性迴歸的原理三、線性迴歸損失函數、代價函數、目標函數四、優化方法(梯度下降法、牛頓法、擬牛頓法等)五、線性迴歸的評估指標六、sklearn參數詳解任務1 - 線性迴歸

2020-07-03 16:09:47

windows系統下python快速註釋多行

以下才做適合於Windows系統。除了對每一行前面添加#的註釋方式外（如若要註釋多行，這種方式較慢），我們還可以考慮另外兩種註釋方式： 1、Ctrl + / （先選中要註釋的代碼，再按Ctrl + /） 2、用’’’ ‘’'或者

2020-07-03 16:09:36

隱馬爾科夫模型HMM（三）鮑姆-韋爾奇算法求解HMM參數

文章目錄HMM模型參數求解概述鮑姆-韋爾奇算法的推導鮑姆-韋爾奇算法流程總結 HMM模型參數求解概述 HMM模型參數求解根據已知的條件可以分爲兩種情況。第一種情況較爲簡單，就是我們已知D個長度爲T的觀測序列和對應的隱藏狀態序列，

2020-07-03 13:01:58

24小時熱門文章

最新文章

最新評論文章