集成學習EnsembleLearning

項目地址:https://github.com/Daya-Jin/ML_for_learner
原博客:https://daya-jin.github.io/2018/08/15/EnsembleLearning/

Ensemble Learning

Bagging

前文說到樹模型不穩定,那麼怎麼減少模型的variance?假設有nn個獨立變量Z1Z_{1}Z2Z_{2}、……、ZnZ_{n},每個變量的方差都爲σ2\sigma^{2},那麼變量Zˉ\bar{Z}的方差爲σ2/n\sigma^{2}/n,可以看到均化可以減少方差。

Bagging(bootstrap aggregation)的思想就是在原數據集中進行多次抽樣得到多個訓練子集,再在這些訓練子集上分別訓練多個模型,最後把這些模型的預測結果均化即可。

假設有訓練集XX,經過BB輪有放回的抽樣得到BB個訓練子集[X1,X2,...,XB][X_{1}, X_{2}, ..., X_{B}],分別在這些訓練子集上訓練得到BB個模型[f1(x),f2(x),...,fB(x)][f_{1}(x), f_{2}(x), ..., f_{B}(x)],然後將所有模型的輸出均化作爲預測結果,即:

Y^bagging=1Bi=1Bf^i(x) \hat{Y}_{bagging}=\frac{1}{B}\sum_{i=1}^{B}\hat{f}_{i}(x)

對於分類問題,預測輸出是無量綱的離散值,無法均化,採用投票機制即可。

Bagging算法中模型的個數BB不是一個很重要的參數,因爲BB在過大時也不會發生過擬合。Bagging算法中最關鍵的一環就是採樣,有以下幾種策略:

  • 隨機選取一個子集,叫做Pasting
  • 有放回的抽樣得到一個子集,叫做Bagging,可以證明有放回的抽樣最多隻會抽到2/3的樣本
  • 隨機選取一個特徵子集,叫做隨機子空間(subspace sampling)
  • 如果同時隨機選取樣本子集與特徵子集,叫做Random Patches

通常使用的就是bagging抽樣,注意到使用有放回抽樣的bagging算法最多隻會抽樣原樣本集的2/3數據,那麼剩下的1/3數據就可以用來做線下驗證,所以使用bagging算法的模型不需要做CV,直接使用未被抽樣的數據來做驗證,這種策略叫做包外誤差估計(out-of-bag Error Estimation)。

樹模型+bagging

決策樹模型原本的優點就是它的強解釋性,而缺點就是模型有較大的方差,而在使用bagging之後,其解釋性被減弱了,但是其方差也被大大降低了,這是一種權衡策略。另一方面,雖然bagging算法使得決策樹模型不再具有可解釋性,但是卻可以得出一個特徵重要性(feature importance)。在使用bagging算法生成樹時,可以記錄每個特徵在BB棵樹以該特徵分裂時所降低的一個平均誤差或平均基尼指數,然後以該值排序就可以得到一個特徵重要性排名。

Random Forest

假設數據中有一個或數個強特徵,那麼在bagging算法中,雖然每棵樹使用了不同的數據子集,但是每棵樹在做頂層分裂時總是會根據最強的那幾個特徵來做分裂,這樣就造成了bagging中每棵樹的相似度很高,學到的內容相似,樹之間有很高的相關性。對不滿足iidiid條件的變量做均化並不能降低太多的方差。前文提到了一種同時選取樣本子集與特徵子集的抽樣方法,那麼可以借鑑Random Patches的思想來降低樹之間的相關性,這種策略叫做解耦(decorrelate)。

假定訓練集XXnn個特徵Z1Z_{1}Z2Z_{2}、……、ZnZ_{n},經過BB輪有放回的抽樣得到BB個訓練子集[X1,X2,...,XB][X_{1}, X_{2}, ..., X_{B}],同樣在這BB個訓練集上訓練BB個樹模型[f1(x),f2(x),...,fB(x)][f_{1}(x), f_{2}(x), ..., f_{B}(x)],Random Forest與Bagging唯一的不同就在於每個樹模型的訓練過程。bagging在每棵樹生成時會在當前樣本子集所有特徵中找一個最佳分割點進行分裂,而random forest在每次分裂時只會隨機選取一個特徵子集做分裂,隨機選取的特徵子集大小一般爲p=np=\sqrt{n}

實現指導:分類迴歸

完整代碼:分類迴歸

Boosting

不同於bagging,boosting算法是一種串行修正算法,在同一個訓練集上串行訓練多個模型,每一個模型會針對上一個模型的錯誤進行修正。下面首先以二分類的AdaBoost做示例講解。

AdaBoost

現有訓練集XXYY,數據共有nn個樣本[x1,x2,...,xn][x_{1},x_{2},...,x_{n}],AdaBoost算法流程如下:

  1. 初始化數據樣本的權重,所有樣本權重相等,wi=1nw_{i}=\frac{1}{n}
  2. 在帶權數據集上訓練一個模型f1(x)f_{1}(x),並計算該模型在訓練集上的加權平均誤差err1=i=1nwiI(yif1(xi))i=1nwierr_{1}=\frac{\sum_{i=1}^{n}w_{i}I(y_{i}{\ne}f_{1}(x_{i}))}{\sum_{i=1}^{n}w_{i}}
  3. 根據模型的表現給模型賦一個權重係數α1=log(1err11)\alpha_{1}={\log}(\frac{1}{err_{1}}-1)
  4. 根據模型的表現給樣本重新分配權重,wi:=wiexp[α1I(yif1(xi))]w_{i}:=w_{i}{\cdot}exp[\alpha_{1}{\cdot}I(y_{i}{\ne}f_{1}(x_{i}))]
  5. 重複2,3,4步,串行訓練得到kk個模型[f1(x),f2(x),...,fk(x)][f_{1}(x),f_{2}(x),...,f_{k}(x)],整個算法的輸出爲

F(x)=sign(i=1kαifi(x)) F(x)=sign(\sum\limits_{i=1}^{k}\alpha_{i}f_{i}(x))

需要注意的有兩點:

在第3步計算模型權重時,注意到當err=12err=\frac{1}{2}(隨機猜)時α=0\alpha=0,當err>12err>\frac{1}{2}α<0\alpha<0,當err<12err<\frac{1}{2}α>0\alpha>0,即對那些好於隨機猜的模型會賦予一個正權重,而對那些還不如隨機猜的模型賦予一個負權重;

另一個,在對樣本重新分配權重時,注意到當α1I(yif1(xi))>0\alpha_{1}{\cdot}I(y_{i}{\ne}f_{1}(x_{i}))>0時,樣本的權重纔會增大,反之會減小,而等於零時則權重不變。且注意到AdaBoost只會改變被誤分類樣本的權重,而在需要改變權重I(yif1(xi))=1I(y_{i}{\ne}f_{1}(x_{i}))=1的條件下,樣本權重的更改量只取決於模型權重α\alpha,而模型權重α\alpha又取決於模型的分類誤差errerr,所以可以看出:減小那些被err>12err>\frac{1}{2}模型誤分類樣本的權重,增大那些被err<12err<\frac{1}{2}模型誤分類樣本的權重。

實現指導

完整代碼

增量Boosting

增量Boosting是boosting的一個變種算法,該算法在同一個數據集上同樣串行訓練得到kk個模型,最後整個算法的輸出是這些模型的線性加權:

F(x)=i=1kβifi(x;θi) F(x)=\sum_{i=1}^{k}\beta_{i}f_{i}(x;\theta_{i})

那麼其優化問題可表示爲:

argminβ,θi=1nL(yi,j=1kβjfj(xi;θj)) arg \min\limits_{\beta,\theta} \sum_{i=1}^{n}L(y_{i},\sum_{j=1}^{k}\beta_{j}f_{j}(x_{i};\theta_{j}))

其中L(yi,f(xi))L(y_{i},f(x_{i}))爲損失計算函數。上述優化問題計算複雜很難解,下面介紹一種基於貪心策略的優化方法。

基於貪心策略的增量Boosting算法流程如下所述:

  1. 初始化一個空模型f0(x)=0f_{0}(x)=0
  2. 以已有模型爲基礎,訓練一個增量模型b1(x;θ1)b_{1}(x;\theta_{1}),令當前模型爲f1(x)=f0(x)+β1b1(x;θ1)f_{1}(x)=f_{0}(x)+\beta_{1}b_{1}(x;\theta_{1})
  3. 當前模型的訓練問題可表示成:argminβ1,θ1i=1nL(yi,f0(x)+β1b1(xi;θ1))arg \min\limits_{\beta_{1},\theta_{1}}\sum\limits_{i=1}^{n}L(y_{i},f_{0}(x)+\beta_{1}b_{1}(x_{i};\theta_{1}))
  4. 重複第2,3步,最後得到kk個模型[b1(x),b2(x),...,bk(x)][b_{1}(x),b_{2}(x),...,b_{k}(x)],整個算法模型爲f(x)=i=1kβibi(x;θi)f(x)=\sum\limits_{i=1}^{k}\beta_{i}b_{i}(x;\theta_{i})

上述增量boosting算法也叫做前向增量建模(Forward Stagewise Additive Modeling)。然後以一個簡單例子來進一步探討此算法。

取損失函數爲平方誤差L(yi,f(xi))=(yif(xi))2L(y_{i},f(x_{i}))=(y_{i}-f(x_{i}))^{2},那麼在增量boosting第mm輪時的損失函數可以寫成:

i=1nL(yi,fm(xi))=i=1nL(yi,fm1(xi)+βmbm(xi;θm))=i=1n(yifm1(xi)βmbm(xi;θm))2=i=1n(ri,m1βmbm(xi;θm)2=i=1nL(ri,m1,βmbm(xi;θm) \begin{aligned} \sum_{i=1}^{n}L(y_{i},f_{m}(x_{i}))&=\sum_{i=1}^{n}L(y_{i},f_{m-1}(x_{i})+\beta_{m}b_{m}(x_{i};\theta_{m})) \\ &=\sum_{i=1}^{n}(y_{i}-f_{m-1}(x_{i})-\beta_{m}b_{m}(x_{i};\theta_{m}))^{2} \\ &=\sum_{i=1}^{n}(r_{i,m-1}-\beta_{m}b_{m}(x_{i};\theta_{m})^{2} \\ &=\sum_{i=1}^{n}L(r_{i,m-1},\beta_{m}b_{m}(x_{i};\theta_{m}) \\ \end{aligned}

其中,ri,m1r_{i,m-1}稱爲第m1m-1輪的模型對第ii個樣本的預測殘差。通過上述變換可以看出,增量boosting算法第mm輪所訓練的增量模型βmbm(xi;θm)\beta_{m}b_{m}(x_{i};\theta_{m})擬合的其實是上一輪模型的殘差。

AdaBoost等價於使用指數損失函數的增量Boosting

取損失函數爲指數損失函數:

L(y,y^)=exp(yy^) L(y,\hat{y})=exp(-y{\cdot}\hat{y})

那麼增量boosting問題可以寫成:

(βm,θm)=argminβ,θi=1nexp[yi(fm1(xi)+βmbm(xi;θm))] (\beta_{m},\theta_{m})=\arg\min\limits_{\beta,\theta}\sum\limits_{i=1}^{n}exp[-y_{i}(f_{m-1}(x_{i})+\beta_{m}b_{m}(x_{i};\theta_{m}))]

待補充

GBM

在之前所講過的一系列模型中,對於參數優化問題,有一種通用解法就是梯度下降法:

θ:=θαL(y,f(x))f(x) \theta:=\theta-\alpha\frac{\partial L(y,f(x))}{\partial f(x)}

而增量boosting模型可以寫成:

f(x):=f(x)+βb(x) f(x):=f(x)+{\beta}b(x)

僅僅受表達形式上的啓發,就可以很容易想到:把模型f(x)f(x)當做需要優化的參數,令每一輪的新模型b(x)b(x)去擬合負梯度,那麼就可以借鑑梯度下降法的思想來得到一個最優或次優模型,由此引出梯度提升機(Gradient Boosting Machine)的概念。增量boosting模型在第mm輪時的損失可以寫成:

i=1NL(yi,fm(xi))=i=1NL(yi,fm1(xi)+βmbm(xi;θm))=i=1NL(yi,fm1(xi))+βmi=1Ngi,mbm(xi;θm) \begin{aligned} \sum_{i=1}^{N}L(y_{i},f_{m}(x_{i}))&=\sum_{i=1}^{N}L(y_{i},f_{m-1}(x_{i})+\beta_{m}b_{m}(x_{i};\theta_{m})) \\ &=\sum\limits_{i=1}^{N}L(y_{i},f_{m-1}(x_{i}))+\beta_{m}\sum\limits_{i=1}^{N}g_{i,m}b_{m}(x_{i};\theta_{m}) \\ \end{aligned}

其中gi,m=L(yi,fm1(xi))fm1(xi)g_{i,m}=\frac{\partial L(y_{i},f_{m-1}(x_{i}))}{\partial f_{m-1}(x_{i})}L(yi,fm1(xi))L(y_{i},f_{m-1}(x_{i}))稱爲僞殘差。在上式中,i=1NL(yi,fm1(xi))\sum_{i=1}^{N}L(y_{i},f_{m-1}(x_{i}))是常數,要想最小化i=1NL(yi,fm(xi))\sum_{i=1}^{N}L(y_{i},f_{m}(x_{i})),易得bm(xi;θm)b_{m}(x_{i};\theta_{m})必須要跟gi,mg_{i,m}異號,這樣才能修正上一輪的錯誤以減小損失值。受上面梯度下降法的啓發,令:

bm(xi;θm)=gi,m b_{m}(x_{i};\theta_{m})=-g_{i,m}

即訓練一個新模型去擬合僞殘差關於上一輪模型fm1f_{m-1}的負梯度,那麼GBM算法的優化問題可以寫成:

θm=argminθi=1nL(gi,m,bm(xi;θm)) \theta_{m}=\arg\min\limits_{\theta}\sum\limits_{i=1}^{n}L(g_{i,m},b_{m}(x_{i};\theta_{m}))

未出現的參數βm\beta_{m}即學習率。特別地,當每輪的基模型使用樹模型時,這種GBM被稱爲梯度提升樹(Gradient Boosted Decision Trees)。在GBDT理論中,對於樹的基模型怎麼生成並沒有做具體規定,不過最常用的基模型還是CART,背後的核心思想是梯度下降法。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章