機器學習/深度學習入門:Boosting、Bagging和偏差、方差

1、化簡公式

2. bagging的偏差和方差

對於bagging來說,每個基模型的權重等於1/m且期望近似相等(子訓練集都是從原訓練集中進行子抽樣),故我們可以進一步化簡得到:

根據上式我們可以看到,整體模型的期望近似於基模型的期望,這也就意味着整體模型的偏差和基模型的偏差近似。同時,整體模型的方差小於等於基模型的方差(當相關性爲1時取等號),隨着基模型數(m)的增多,整體模型的方差減少,從而防止過擬合的能力增強,模型的準確度得到提高。但是,模型的準確度一定會無限逼近於1嗎?並不一定,當基模型數增加到一定程度時,方差公式第二項的改變對整體方差的作用很小,防止過擬合的能力達到極限,這便是準確度的極限了。另外,在此我們還知道了爲什麼bagging中的基模型一定要爲強模型,否則就會導致整體模型的偏差度低,即準確度低。

Random Forest是典型的基於bagging框架的模型,其在bagging的基礎上,進一步降低了模型的方差。Random Fores中基模型是樹模型,在樹的內部節點分裂過程中,不再是將所有特徵,而是隨機抽樣一部分特徵納入分裂的候選項。這樣一來,基模型之間的相關性降低,從而在方差公式中,第一項顯著減少,第二項稍微增加,整體方差仍是減少。

總之,對於Bagging算法來說,由於我們會並行地訓練很多不同的分類器的目的就是降低這個方差(variance) ,因爲採用了相互獨立的基分類器多了以後,h的值自然就會靠近,所以對於每個基分類器來說,目標就是如何降低這個偏差(bias),所以我們會採用深度很深甚至不剪枝的決策樹。 

3. boosting的偏差和方差

對於boosting來說,基模型的訓練集抽樣是強相關的,那麼模型的相關係數近似等於1,故我們也可以針對boosting化簡公式爲:

通過觀察整體方差的表達式,我們容易發現,若基模型不是弱模型,其方差相對較大,這將導致整體模型的方差很大,即無法達到防止過擬合的效果。因此,boosting框架中的基模型必須爲弱模型。

因爲基模型爲弱模型,導致了每個基模型的準確度都不是很高(因爲其在訓練集上的準確度不高)。隨着基模型數的增多,整體模型的期望值增加,更接近真實值,因此,整體模型的準確度提高。但是準確度一定會無限逼近於1嗎?仍然並不一定,因爲訓練過程中準確度的提高的主要功臣是整體模型在訓練集上的準確度提高,而隨着訓練的進行,整體模型的方差變大,導致防止過擬合的能力變弱,最終導致了準確度反而有所下降。

基於boosting框架的Gradient Tree Boosting模型中基模型也爲樹模型,同Random Forrest,我們也可以對特徵進行隨機抽樣來使基模型間的相關性降低,從而達到減少方差的效果。

總之,對於Boosting來說,每一步我們都會在上一輪的基礎上更加擬合原數據,所以可以保證偏差(bias),所以對於每個基分類器來說,問題就在於如何選擇variance更小的分類器,即更簡單的分類器,所以我們選擇了深度很淺的決策樹。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章