【機器學習】西瓜書集成學習的誤差-分歧分解公式推導

前言

原文中,根據公式(8.28)寫出了集成的“分歧”定義爲:
A(hx)=i=1Twi(hi(x)H(x))2\overline A(h|x) = \sum\limits_{i=1}^{T}w_i(h_i(x)-H(x))^2

結果在公式(8.31)突然變成,將分歧和誤差聯繫上了,看得我非常懵逼
A(hx)=i=1TwiE(hix)E(Hx)\overline A(h|x) = \sum\limits_{i=1}^{T}w_iE(h_i|x)-E(H|x)

所以,本文主要解釋西瓜書第185頁公式(8.31)的第一行是怎麼來的

公式

首先,將公式(8.31)的第二行換個寫法,我們叫他爲公式(a),如果能夠證明公式(a)是正確的,那麼公式(8.31)的第一行也就是成立的:
E(hx)A(hx)=E(Hx)\overline E(h|x) -\overline A(h|x) = E(H|x)

已知:
E(hx)=i=1Twi(f(x)hi(x))2\overline E(h|x) = \sum\limits_{i=1}^{T}w_i(f(x)-h_i(x))^2
A(hx)=i=1Twi(hi(x)H(x))2\overline A(h|x) = \sum\limits_{i=1}^{T}w_i(h_i(x)-H(x))^2

所以:

E(hx)A(hx)\overline E(h|x) -\overline A(h|x)$

=i=1Twi(f(x)hi(x))2i=1Twi(hi(x)H(x))2= \sum\limits_{i=1}^{T}w_i(f(x)-h_i(x))^2 - \sum\limits_{i=1}^{T}w_i(h_i(x)-H(x))^2

求和號i=1T\sum\limits_{i=1}^{T}和權重wiw_i提到前面,得:

=i=1Twi[(f(x)hi(x))2(hi(x)H(x))2]= \sum\limits_{i=1}^{T}w_i[(f(x)-h_i(x))^2 - (h_i(x)-H(x))^2]

平方展開,得:

=i=1Twi[f(x)2+hi(x)22f(x)hi(x)hi(x)2H(x)2+2H(x)hi(x)]= \sum\limits_{i=1}^{T}w_i[f(x)^2 + h_i(x)^2 - 2f(x)h_i(x) - h_i(x)^2 -H(x) ^2+2H(x)h_i(x)]

=i=1Twi[f(x)22f(x)hi(x)H(x)2+2H(x)hi(x)]= \sum\limits_{i=1}^{T}w_i[f(x)^2 - 2f(x)h_i(x) -H(x)^2 +2H(x)h_i(x)]

=i=1Twi[f(x)2+2hi(x)[H(x)f(x)]H(x)2]= \sum\limits_{i=1}^{T}w_i[f(x)^2 + 2h_i(x)[H(x)-f(x)] -H(x)^2]

i=1Twi\sum\limits_{i=1}^{T}w_i都乘進去,得:

=i=1Twif(x)2+2i=1Twihi(x)[H(x)f(x)]i=1TwiH(x)2= \sum\limits_{i=1}^{T}w_if(x)^2 + 2\sum\limits_{i=1}^{T}w_ih_i(x)[H(x)-f(x)] -\sum\limits_{i=1}^{T}w_iH(x)^2

因爲f(x)2f(x)^2H(x)2H(x)^2均與ii無關,因此i=1Twi=1\sum\limits_{i=1}^{T}w_i=1,得到下式,記爲公式(b):

=f(x)2+2i=1Twihi(x)[H(x)f(x)]H(x)2= f(x)^2 + 2\sum\limits_{i=1}^{T}w_ih_i(x)[H(x)-f(x)] -H(x)^2

在迴歸學習問題中,由西瓜書第182頁公式(8.23)可知:

H(x)=i=1Twihi(x)H(x) = \sum\limits_{i=1}^{T}w_ih_i(x)

將公式(8.23)代入公式(b)中可得:

=f(x)2+2H(x)[H(x)f(x)]H(x)2= f(x)^2 + 2H(x)[H(x)-f(x)] -H(x)^2

=f(x)2+2H(x)22H(x)f(x)]H(x)2= f(x)^2 + 2H(x)^2-2H(x)f(x)] -H(x)^2

=f(x)22H(x)f(x)+H(x)2= f(x)^2 -2H(x)f(x)+H(x)^2

=(f(x)H(x))2= (f(x)-H(x))^2

=E(Hx)= E(H|x)

因此,下式成立:

E(hx)A(hx)=E(Hx)\overline E(h|x) -\overline A(h|x) = E(H|x)

可得,下式也成立
A(hx)=E(hx)E(Hx)\overline A(h|x) = \overline E(h|x) - E(H|x)

可得,下式也成立
A(hx)=i=1TwiE(hix)E(Hx)\overline A(h|x) = \sum\limits_{i=1}^{T}w_iE(h_i|x)-E(H|x)
證畢。

收穫

(1)當沒有思路的時候,不妨取一些特殊情況找找思路,例如可設T=1T=1,這樣就可以把求和號i=1T\sum\limits_{i=1}^{T}和權重wiw_i都忽略掉:

i=1Twi[f(x)2+2hi(x)[H(x)f(x)]H(x)2]\sum\limits_{i=1}^{T}w_i[f(x)^2 + 2h_i(x)[H(x)-f(x)] -H(x)^2]

變爲:

f(x)2+2h(x)[H(x)f(x)]H(x)2f(x)^2 + 2h(x)[H(x)-f(x)] -H(x)^2

因爲T=1T=1,所以H(x)=h(x)H(x)=h(x),可得:

f(x)2+2H(x)[H(x)f(x)]H(x)2f(x)^2 + 2H(x)[H(x)-f(x)] -H(x)^2

=f(x)22H(x)f(x)+H(x)2= f(x)^2 -2H(x)f(x)+H(x)^2

=(f(x)H(x))2= (f(x)-H(x))^2

=E(Hx)= E(H|x)

這時候你會突然發現,噢,原文問題的關鍵就是在於,
如何將:

f(x)2+2h(x)[H(x)f(x)]H(x)2f(x)^2 + 2h(x)[H(x)-f(x)] -H(x)^2

變爲:

f(x)2+2H(x)[H(x)f(x)]H(x)2f(x)^2 + 2H(x)[H(x)-f(x)] -H(x)^2

關鍵又在於H(x)=h(x)H(x)=h(x),但因爲之前有i=1T\sum\limits_{i=1}^{T}和權重wiw_i的干擾,所以你哪怕你知道H(x)=i=1Twihi(x)H(x) = \sum\limits_{i=1}^{T}w_ih_i(x),但是如果你不把i=1Twi\sum\limits_{i=1}^{T}w_i乘進去,你也不知道往下推導,所以取一些極端的列子,把干擾消除掉,就很明顯了



(2)另外一思路是,兩頭夾擊

我們的目標是得到E(hx)A(hx)=E(Hx)\overline E(h|x) -\overline A(h|x) = E(H|x)而:

E(Hx)E(H|x)

=(f(x)H(x))2= (f(x)-H(x))^2

=f(x)22H(x)f(x)+H(x)2= f(x)^2 -2H(x)f(x)+H(x)^2

同時,我們從E(hx)A(hx)\overline E(h|x) -\overline A(h|x)出發已經得到了:

=i=1Twi[f(x)2+2hi(x)[H(x)f(x)]H(x)2]= \sum\limits_{i=1}^{T}w_i[f(x)^2 + 2h_i(x)[H(x)-f(x)] -H(x)^2]

兩個式子對比一下就可以發現,關鍵就是要消去hi(x)h_i(x),所以我們要找

  1. hi(x)h_i(x)H(x)H(x)的關係
  2. hi(x)h_i(x)f(x)f(x)的關係

顯然hi(x)h_i(x)f(x)f(x)是沒有關係的,同時我們發現
H(x)=i=1Twihi(x)H(x) = \sum\limits_{i=1}^{T}w_ih_i(x)

所以可以把這個式子代進去嘗試,把hi(x)h_i(x)消去,那麼結果也就出來了

備註

由上面的推導可知,用到的是加權平均發H(x)=i=1Twihi(x)H(x) = \sum\limits_{i=1}^{T}w_ih_i(x),因此這種分析方法只適用於迴歸學習(即數值型輸出)

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章