集成學習(ensemble learning)乾貨系列(1)——集成學習概述

什麼是集成學習?

集成學習:簡單概括就是通過某種合理的方式將多個簡單的基學習器結合起來,以期獲得更準確,更高效的模型。 對某些機器學習任務,有的時候我們使用單個模型已經調到最優,很難再有改進。這時候爲了提高性能,往往會用很少量的工作,組合多個基模型(基學習器),使得系統性能提高。 如果基學習器是從某⼀種學習 算法從訓練數據中產⽣,稱該集成學習是同質的(homogenerous)。如果基學習器是從⼏種不同學習算法從訓練數據中產⽣,則稱集成學習是異質的(heterogenous )。集成學習中, 通常基學習器之間的互補性越強,或者基學習器更多樣的話,集成效果更好。
在這裏插入圖片描述
在這裏插入圖片描述
爲了幫助大家更好的理解各種集成模型到底在作什麼,以及如何減少誤差提升性能的;我們先來看一下誤差的偏差-方差分解。

誤差的偏差-方差分解

點估計的偏差和方差

記訓練樣本數據集DD上對參數θ\theta的點估計爲:θ^=g(D)\hat \theta = g(D),根據頻率學派的觀點,真實值θ\theta是固定的,但是未知,而θ^\hat \theta是一個關於數據DD的函數。由於數據是隨機採樣的,因此θ^\hat \theta是一個隨機變量。
於是,點估計的偏差定義爲:
bias(θ^)=E[θ^]θ bias(\hat \theta) = \mathbb{E}[\hat\theta] - \theta
這裏的期望作用在所有數據上。爲了理解這裏的期望,假設我們可以對整個流程重複多次,每次收集得到數據集DD,利用訓練數據得到估計θ^\hat \theta, 如果將每次收集到的訓練樣本DD看成是關於總體數據的獨立同分布的樣本,那麼每次收集到的D會有些不同,從而每次得到的參數估計θ^\hat \theta肯定也會不同,這多個不同的估計可以看成是期望E[θ^]\mathbb{E}[\hat\theta]的估計。
如果bias(θ^)=0bias(\hat \theta)=0,那麼我們就稱這個估計是無偏的。

順便提一嘴,統計上還有個概念叫Fisher一致性,它是從穩健性估計的角度來看
在這裏插入圖片描述
在這裏插入圖片描述

點估計的⽅差爲V(θ^)\mathbb{V}(\hat \theta) ,它刻畫的是從潛在的數據分佈中獨⽴地獲取樣本集時,點估計的變化程度。

例題:從均值爲μ\mu的伯努利分佈中,得到獨立同分布樣本x1,x2,,xNx_1, x_2, \dots, x_N, E(xi)=μ,V(xi)=μ(1μ)\mathbb{E}(x_i) = \mu, \mathbb{V}(x_i) = \mu(1- \mu)
樣本均值可作爲參數μ\mu的⼀個點估計,即: μ^=1Ni=1Nxi\hat \mu =\frac{1}{N} \sum_{i=1}^Nx_i
因爲
E(μ^)=E[1Ni=1Nxi]=1NE[i=1Nxi]=μ \mathbb{E}(\hat \mu) = \mathbb{E}[\frac{1}{N} \sum_{i=1}^Nx_i] = \frac{1}{N} \mathbb{E}[\sum_{i=1}^Nx_i] = \mu
所以μ^\hat \muμ\mu的一個無偏估計。
估計的⽅差爲:
V(μ)=V[1Ni=1Nxi]=1N2V[i=1Nxi]=1Nμ(1μ) \mathbb{V}(\mu) = \mathbb{V}[\frac{1}{N} \sum_{i=1}^Nx_i] = \frac{1}{N^2}\mathbb{V}[\sum_{i=1}^Nx_i] = \frac{1}{N}\mu(1- \mu)

這表明估計的方差隨樣本數量NN增加而下降估計的⽅差隨着樣本數量的增加⽽下降,這是所有估計的共性,這也是爲什麼說可能的情況下,我們希望訓練樣本數據越多越好。

預測誤差的偏差-方差分解

我們希望模型能夠儘可能準確的描述數據產生的真實規律,這裏的準確是指模型測試集上的預測誤差儘可能小。模型在未知數據上的誤差,稱爲泛化誤差。,它主要有三種來:隨機誤差,偏差和方差。

  • 隨機誤差。
    隨機誤差η\eta是不可消除的,與我們數據的產生或收集機制密切相關,並且認爲其與真值yy^*是獨立的,若yy^*爲實值則一般認爲其隨機誤差服從ηN(0,ση2)\eta \sim N(0,\sigma_{\eta}^2)的正態分佈, 於是可以的真實值yy^*與我們的觀測值yy的關係如下:
    y=y+η y = y^* + \eta
    也就是說觀測值yy是服從yN(y,ση2)y \sim N(y^*, \sigma_{\eta}^2)的正態分佈。

  • 偏差。 偏差來源於模型中的錯誤假設。偏差過高就意味着模型所代表的特徵和標籤之間的關係是錯誤的,對應欠擬合現象。

    給定數據DD,在DD上訓練得到我們的模型設爲fDf_D。根據fDf_D對訓練樣本進行測試,得到的預測結果記爲y^D=fD(x)\hat y_D = f_D(x)。模型預測的偏差的平方度量模型預測y^D\hat y_D的期望與真實值yy^*之間的差異:
    bias2(y^D)=(E(y^D)y)2 bias^2(\hat y_D) = (\mathbb{E}(\hat y_D) - y^*)^2
    偏差表示學習算法的期望預測與真實值之間的偏離程度,即偏差刻畫了我們的模型本身對數據的擬合能力。

  • 方差。方差來源於模型對訓練數據波動的過度敏感。方差過高意味着模型對
    數據中的隨機噪聲也進行了建模,將本不屬於“特徵– 標籤”關係
    中的隨機特性也納入到模型之中,對應着過擬合現象.

    V[y^D]=E[(y^DE[y^D])2] \mathbb{V}[\hat y_D] = \mathbb{E}[(\hat y_D - \mathbb{E}[\hat y_D])^2]
    方差表示由於訓練集的變動所導致的學習性能的變化(不穩定性),刻畫了數據擾動造成的影響。

偏差-方差分解推導

通常情況下,我們一般使用L2L_2損失作爲我們的損失函數
L(y^D,y)=(yy^D)2 \mathcal{L}(\hat y_D, y) = (y - \hat y_D)^2 ,
注意這裏的yy爲上面提到的觀測值,y=y+ηy = y^* + \eta
y=E[y^D]\overline y = \mathbb{E}[\hat y_D],泛化誤差定義爲損失函數的數學期望:
Err=E[(yy^D)2]=E[(y^D(y+η))2]=E[(y^Dy)2+η22η(y^Dy)]=E[(y^Dy)2]+E[η2]=E[(y^Dy)2]+var[η]=E[(y^Dy)+(yy)2]+var[η]=E[(y^Dy)2]+E[(yy)2]+2E[(y^Dy)(yy)]+var[η]=var[y^D]+(yy)2+2(yy)2(E[y^D]y)+var[η]=var[y^D]+bias2(y^D)+var[η] \begin{aligned} Err &= \mathbb{E}[(y - \hat y_D)^2] = \mathbb{E}[(\hat y_D - (y^* + \eta))^2] \\ &= \mathbb{E}[(\hat y_D - y^*)^2 + \eta^2 - 2\eta(\hat y_D - y^*) ] \\ &= \mathbb{E}[(\hat y_D - y^*)^2] + \mathbb{E}[\eta^2] \\ &= \mathbb{E}[(\hat y_D - y^*)^2] + \mathbb{var}[\eta] \\ &= \mathbb{E}[(\hat y_D - \overline y) + (\overline y - y^*)^2] + \mathbb{var}[\eta] \\ &= \mathbb{E}[(\hat y_D - \overline y)^2] + \mathbb{E}[(\overline y - y^*)^2] + 2\mathbb{E}[(\hat y_D - \overline y)(\overline y - y^*)] + var[\eta] \\ &= var[\hat y_D] + (\overline y - y^*)^2 + 2(\overline y - y^*)^2(\mathbb{E}[\hat y_D] - \overline y) + var[\eta] \\ &= var[\hat y_D] + bias^2(\hat y_D) + var[\eta] \end{aligned}
即泛化誤差可以分解爲爲預測的偏差的平方、預測的⽅差以及數據的噪聲。我們稱之爲泛化誤差的偏差——方差分解。雖然其他損失函數不能解析證明泛化誤差可分解爲偏差的平方、方差和噪聲,但大致趨勢相同。
偏差-方差分解表明模型的性能是由模型的擬合能力,數據的充分性以及學習任務本身的難度共同決定的:

  • 偏差:度量模型的期望預測與真實結果之間的偏離程度,刻畫了模型本身的擬合能力。
  • 方差: 度量訓練集的變動所導致的模型性能的變化,刻畫了數據擾動造成的影響。
  • 噪聲:度量在當前任務上任何模型所能達到的期望泛化誤差的下界,刻畫了學習問題本身的難度。

至此,看完了偏差——方差分解,我們已經清楚對於某個任務來說,模型的性能受哪幾方面的影響,由於噪聲的存在且我們很難去減少噪聲,所以主要是從減少模型的偏差(Bagging方法)和減少模型的方差(Boosting等)兩方面提高模型的性能,這也是主流集成學習所希望完成的事情。

結合策略

下面簡單介紹下集成學習對基學習器幾種簡單的結合策略,爲我們下一篇打下基礎。

Geometric Average Rule

在這裏插入圖片描述

Arithmetic Average Rule

在這裏插入圖片描述

Majority Voting Rule

在這裏插入圖片描述
在這裏插入圖片描述

參考文獻

  1. 卿來雲,中國科學院大學《模式識別與機器學習》第七章
  2. 周曉飛,中國科學院大學《機器學習》 第六章
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章