機器學習總結系列(二)——感知機模型

機器學習總結系列(二)——感知機模型

  本文主要介紹第二個比較重要的模型——感知機模型,感知機模型在李航老師《統計學習方法》中有專門一章來具體介紹,但是周志華老師的《機器學習》是在神經網絡一章中簡單提到,而機器學習實戰中則沒有提到。所以我在這主要以《統計學習方法》中的內容爲參考,進行描述。
  


目錄

1. 感知機模型介紹

感知機是二類分類的線性分類模型,輸入:實例的特徵向量;輸出:實例的類別。感知機對應於輸入空間(特徵空間)中將實例劃分爲正負兩類的分離超平面,旨在求出將訓練數據進行線性劃分的分離超平面。

2. 感知機模型

  由輸入空間到輸出空間的函數如下(有一些描述和限制條件我就不寫了,想詳細瞭解可以參考《統計學習方法》):

f(x)=sign(wx+b)

sign(x)={+1,x01,x<0

感知機模型的假設空間是定義在特徵空間中的所以線性分類模型,或者線性分類器。

3.感知機學習策略

先了解一個概念——數據集的線性可分性:存在超平面,能夠將數據集中所有的正例點和負例點完全正確地分到超平面兩側,這樣的數據集稱爲線性可分數據集。

損失函數

如果定義誤分類點的總數,那麼這個損失函數不是參數wb 的連續可導函數,不易優化。另一個選擇是誤差函數定義爲誤分類點到分類平面的距離之和。這樣假設誤分類點的集合是M ,那麼損失函數定義爲:

1wxiϵMyi(w xi+b)

不考慮1w 的影響,就得到了感知機學習的損失函數了。

4. 感知機學習算法

學習算法就是求解最優化問題,方法是梯度下降法。

原始形式

感知機學習算法是誤差驅動的,使用隨機梯度下降法。

  1. 首先選擇任意的一個超平面,即初始化w0b0 ;
  2. 在訓練集中任意選取一個數據(xi,yi)
  3. 如果

    yi(w xi+b)0


    ω=ω+ηyixi

    b=b+ηyi
  4. 轉至2,直到沒有誤分類點爲止。

對偶形式

對偶形式是感知機學習的另一種思路,它將參數定義爲了每一個樣例點修改次數的增量,推到過程比較好。由於公示實在是比較難打,建議看書瞭解。

證明數據線性可分條件下感知機學習算法的收斂性

這一部分主要是講解爲什麼通過有限次的迭代,就能找到一個合適的超平面將兩類分開。這部分是證明,比較繁瑣,有興趣可以查看數據。但是一定要記住,收斂的條件是數據集是線性可分的。

總結

感知機這部分主要在《統計機器學習》中有講,而在周志華的機器學習中是在神經網絡中講解的。他是將感知器理解爲一個神經元,但是這種神經元一層是不能進行非線性可分的分類的,比如取異或,必須是兩層。這樣就引出了用Sigmoid函數作爲神經元。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章