這一節我們簡單地介紹歷史上的著名算法——感知器算法,這在後面的學習理論中也會有所提及。設想我們改變邏輯迴歸算法,“迫使”它只能輸出-1或1抑或其他定值。在這種情況下,之前的邏輯函數
如果我們令假設爲
至此我們就得出了感知器學習算法。在19世紀60年代,感知器被認爲是大腦中神經元工作的初步模型。需要注意的是雖然感知器模型和我們之前的算法形式上很相似,但它實際上和線性迴歸等算法是完全不同類型的算法。尤其你很難像線性迴歸一樣給感知器概率論上的有效闡述或極大似然估計的推導。
感知器模型的另一種闡述
數據集的線性可分性
給定一個數據集
其中,
能夠將數據集的正實例點和負實例點完全正確地劃分到超平面的兩側,則稱數據集T爲線性可分數據集。
感知機學習策略
假設數據集是線性可分的,感知機學習的目標是求得一個能夠將訓練集正負實例點完全分開的超平面。爲了找出這樣的超平面,即確定感知機的模型參數
損失函數的一個自然選擇是誤分類點的個數。但這樣的損失函數不是參數
首先寫出空間
這裏
所以誤分類點到超平面的距離是
那麼所有誤分類點到超平面的距離爲
不考慮
使用隨機梯度下降法優化模型,則有:
沒碰到一個誤分類點