機器學習總結系列(二)——感知機模型
本文主要介紹第二個比較重要的模型——感知機模型,感知機模型在李航老師《統計學習方法》中有專門一章來具體介紹,但是周志華老師的《機器學習》是在神經網絡一章中簡單提到,而機器學習實戰中則沒有提到。所以我在這主要以《統計學習方法》中的內容爲參考,進行描述。
目錄
1. 感知機模型介紹
感知機是二類分類的線性分類模型,輸入:實例的特徵向量;輸出:實例的類別。感知機對應於輸入空間(特徵空間)中將實例劃分爲正負兩類的分離超平面,旨在求出將訓練數據進行線性劃分的分離超平面。
2. 感知機模型
由輸入空間到輸出空間的函數如下(有一些描述和限制條件我就不寫了,想詳細瞭解可以參考《統計學習方法》):
感知機模型的假設空間是定義在特徵空間中的所以線性分類模型,或者線性分類器。
3.感知機學習策略
先了解一個概念——數據集的線性可分性:存在超平面,能夠將數據集中所有的正例點和負例點完全正確地分到超平面兩側,這樣的數據集稱爲線性可分數據集。
損失函數
如果定義誤分類點的總數,那麼這個損失函數不是參數
不考慮
4. 感知機學習算法
學習算法就是求解最優化問題,方法是梯度下降法。
原始形式
感知機學習算法是誤差驅動的,使用隨機梯度下降法。
- 首先選擇任意的一個超平面,即初始化
w0 和b0 ; - 在訓練集中任意選取一個數據
(xi,yi) ; 如果
yi(w⋅ xi+b)⩽0
則
ω=ω+ηyixi
b=b+ηyi - 轉至2,直到沒有誤分類點爲止。
對偶形式
對偶形式是感知機學習的另一種思路,它將參數定義爲了每一個樣例點修改次數的增量,推到過程比較好。由於公示實在是比較難打,建議看書瞭解。
證明數據線性可分條件下感知機學習算法的收斂性
這一部分主要是講解爲什麼通過有限次的迭代,就能找到一個合適的超平面將兩類分開。這部分是證明,比較繁瑣,有興趣可以查看數據。但是一定要記住,收斂的條件是數據集是線性可分的。
總結
感知機這部分主要在《統計機器學習》中有講,而在周志華的機器學習中是在神經網絡中講解的。他是將感知器理解爲一個神經元,但是這種神經元一層是不能進行非線性可分的分類的,比如取異或,必須是兩層。這樣就引出了用Sigmoid函數作爲神經元。