機器學習理解(六)

9.AdaBoost分類器----有監督學習
AdaBoost也是一種分類算法,它是一種迭代算法,通過訓練多個弱分類器,來得到強分類器,利用最終的強分類器來對數據進行分類,它的基本步驟爲:
1.賦予每個訓練樣本相同的權重,訓練第一個弱分類器,此時個樣本的權重爲1/N(N爲樣本總數),將弱分類器得到的各樣本的分類結果與其真實結果進行比較,分類錯誤的各樣本的權重之和即爲a,利用如下公式得到第一個弱分類器的權重;

2.訓練樣本重新賦予不同的權重,若在前一次的弱分類器中得到的分類結果正確,則減小該樣本的權重;否則增大該樣本的權重,訓練第二個弱分類器,將弱分類器得到的各樣本的分類結果與其真實結果進行比較,分類錯誤各樣本的誤差之和即爲a,利用上述公式得到第二個弱分類器的權重;權重的更新公式爲 :其中表示前一個弱分類器中樣本i的權重,表示當前弱分類器中該樣本i的權重,表示前一個弱分類器的權重
3.重複第2步,直至滿足迭代結束條件;
4.將新的樣本輸入到已經訓練好的每一個弱分類f器中,將每個弱分類器得到的結果(分類結果可以數值化處理)乘以其自身的權重作爲最終結果;如若要對樣本j分類,則分類表達式爲:

弱分類器可以爲決策樹,或者設置閾值等分類方法。。。
AdaBoost的損失函數爲指數損失函數,即


優點:易於實現;分類準確率較高;沒有太多人爲定義的參數;
缺點:要進行多次迭代,所需的計算量會比較大;對邊緣點比較敏感;


參考博客:數盟微信羣


10.最大期望EM算法---無監督學習  相似的還有HMM(隱馬爾科夫模型)

EM算法用來在概率參數模型中求得未知參數的最大似然估計,即通過已知參數來求得未知參數,未知的參數即爲隱藏變量,它總共有兩步:E步和M步
E步:選取一組參數,求出在該參數下未知參數的條件概率值;
M步:結合E步求出的未知參數的條件概率,求出似然函數下界函數的最大值
重複上面兩步,直至收斂


關於EM算法,我覺得不是那麼理解,也還沒有找到比較好的學習資源,我看過的博客都不能讓我對這個問題有很好的瞭解,哎。。。或許是人太笨了。。


參考博客:http://www.cnblogs.com/zhangchaoyang/articles/2623364.html


機器學習算法可以分爲如下兩種模型:
判別式模型:邏輯線性迴歸  支持向量機  傳統的神經網絡  最近鄰
生成式模型:高斯模型  LDA  樸素貝葉斯  HMM


機器學習這部分寫的差不多了,以後有了新的理解或者學習到了新的知識會持續更新的,下面開始寫自己在找實習以及找工作的過程中所做的準備,包括自己的一些心得體會,還有準備的各種資料等等。。。
未完待續。。。


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章