泛統計理論初探——集成學習之Bagging方法探討

數據挖掘-探討Bagging方法

淺談裝袋方法
在傳統分類問題中,我們通常使用基本的分類器去得到模型,比如樸素貝葉斯模型、決策樹方法、logistic模型等。但這些基本的分類器的預測正確率都是較爲一般的,在處理實際問題中,這些模型的準確率可能在70%~85%之間。如果還想進一步提高預測準確率的話,可以選擇使用深度學習的神經網絡預測或是集成學習的方法進行預測。
在某些問題上,如圖像分類問題、語音識別問題、自然語言問題上,深度學習中各類神經網絡要強於普通的機器學習方法,也強於集成學習的方法。本人認爲在這些涉及到感知的分類問題上,神經網絡由於本身對數據的特徵抽取是非常細微的,所以能夠觀察到人類無法觀測到的差異和特徵;同時由於神經網絡本身是模仿人類大腦神經元的結構,所以對這些基於感知的分類問題上,效果非常好。
我們今天要談的Bagging方法,是屬於集成學習的一種。上一次的文章中談到的提升方法也是集成學習的一種。Bagging方法又名裝袋方法,它的本質上是一種學習策略,而不是具體的分類模型。即這種Bagging方法的學習策略是把多個簡單的分類器進行組合,通過數據訓練得到分類器後,在預測時採用投票的方式進行預測。
在某種程度上,Bagging方法是在競賽中經常被使用的,因爲它的這種組合的學習策略是可以防止過擬合的,並在一定程度上提高預測的準確率。這種學習策略本質上不是一種數學模型或是統計理論,所以這種方法在期刊論文中的研究較少,大部分人是在實戰中用到該策略。
其實最典型的Bagging模型就是隨機森林模型,隨機森林模型是基於決策樹模型的一種延伸,因爲它的本質是多棵決策樹進行組合。它的訓練步驟主要是三步:
1、從總數據中選出n組樣本作爲訓練數據,從總特徵中選出x個特徵作爲某棵決策樹的特徵。
2、將n組樣本對應的x個特徵進行訓練,得到一棵決策樹。
3、重複步驟1和步驟2,得到K棵決策樹後,訓練結束。
在使用時,只需將K棵決策樹進行組合,並通過投票機制得到最終的預測結果。其實在實際的比賽中,隨機森林模型是經常被使用的,它的優勢主要是三個。第一,隨機森林模型可以防止噪聲數據對模型的干擾,即健壯性較強,模型較爲穩定。第二,隨機森林模型可以防止過擬合。第三,隨機森林模型不需要進行人工篩選特徵,即可以處理高維特徵的問題。基於上述三個優點,隨機森林模型在一些問題中,它的預測能力和穩健性甚至超過一些神經網絡模型。所以隨機森林模型是較爲經典的數據挖掘模型,初學者應該熟悉這種方法的原理。
在這裏插入圖片描述
總的來說,Bagging的學習方法是一種非常經典並且十分實用的機器學習方法,初學者應該熟悉並掌握,特別是這種策略對應的經典模型(隨機森林模型)。並且這種模型在分佈式系統十分適用,在處理大數據的情況下會具有一定的優勢。

發佈了29 篇原創文章 · 獲贊 30 · 訪問量 1萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章