泛統計理論初探——集成學習之提升方法探討

數據挖掘-探討提升方法

淺談提升方法
在傳統的分類問題的情況中,不管是決策樹或是樸素貝葉斯等方法,都是對訓練數據進行訓練,然後得到模型來去進行預測。這次我們談的提升方法(boosting)本質上是集成學習的一種,另一種是bagging方法,我們下一次再討論。
提升方法其實是一種機器學習思路,目標是通過多次學習得到多個分類器,然後將多個分類器進行加權的線性組合,然後得出一個預測性能更好更穩健的分類器,從而提高性能。但是我們不禁會思考,如何在訓練數據只有一份的基礎上,去訓練多個分類器。這裏就要借鑑我們在初中或者高中的一個學習的方法,即“糾錯本”。當我們遇到一道題不會做時,我們會將該題目收納進“糾錯本”,然後將該題目搞清楚後,下一次遇到同樣的問題就可以解決。
提升方法的思路其實也很像“糾錯本”,當機器在第一次學習時,所以數據的權重都是一樣的,即都是一樣重要。而當機器在第二次、第三次等後續學習中,會將之前的誤分類數據拿出來去做成“糾錯本”,即改變數據的權重。通常認爲,那些誤分類的數據是比較重要的,即當下一次訓練數據時,這些“糾錯本”中的數據會通過設置較大的權重去影響損失函數,即讓模型更“看重”這些之前被誤分類的數據。
那麼經過上述的一個大致說明後,其實還有一個疑問,也就是將這些多個分類器的預測效果去超過普通單個的弱分類器預測效果。其實這裏可以引出另一個概念,即強分類器。
在機器學習研究人員眼中,針對分類問題訓練得到的模型有兩種,一種是弱分類器、另一種是強分類器。這兩者的區別我們可以這樣理解:強分類器是一種訓練的較好地模型,在分類問題中,它可以較爲準確的去對數據進行分類,從數據角度來看,這種分類器的分類規則是較爲準確的,但是容易過擬合併且穩健性不夠強。弱分類器是一種較爲粗糙的分類器,它的分類準確率往往較爲一般,但從另一個角度來說,這種分類器的穩健性還不錯,因爲其分類規則較爲粗糙,所以不管數據多麼異常,它的預測能力不會被過於干擾。
我們繼續引用生活中的例子去理解強分類器和弱分類器,在一個班級中,強分類器可以視爲一個學習非常好的學生,各門功課都是在95分以上;弱分類器可以視爲一個學習較爲一般的學生,有一兩門功能在95分以上,其它功課都在85分左右。當班級舉行一些開放式比賽時,顯然學習非常好的學生更有優勢,那麼作爲一個學習較爲一般的學生要如何在比賽中擊敗好學生呢,最直接且顯然的方法就是,去找幾個學習一般的同學,聯合組成一個團隊去和這個好學生去競爭。當遇到比賽的難題時,可以讓擅長這個難題的同學去解決,強化他在這個題目的決定權,並且最後通過團隊中的投票進行表決,決定對這個難題做出怎麼樣的解答。
根據上述的例子,我想理解這個提升方法的第二個思路大家也能夠理解了,就是加大誤分類率小的弱分類器的權重,最終多個弱分類器一起進行投票,得出最終的預測,使得預測的準確率超過強分類器。
總的來說,提升方法的思路就是兩個,第一是多次訓練,但是每次訓練中之前誤分類的樣本會被加大權重,從而引起後續分類器的重視。第二是投票決定結果,但是之前在訓練過程中相對誤分類率較小的分類器會被加大權重,最終多個分類器投票得出預測。綜上所述,提升學習其實是一種學習策略,它將多個弱分類器進行組合,在某種情況得到比簡單強分類器的預測效果更好的學習方法。

發佈了29 篇原創文章 · 獲贊 30 · 訪問量 1萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章