關於統計學習方法的知識,參考書《統計學習方法》,李航著,清華大學出版社。
第2章 感知機
第1節 感知機模型的概念
第2節 感知機的學習策略(或損失函數/目標函數)
第3節 感知機學習的原始形式與對偶形式
第4節 感知機模型的對偶形式
第1節 感知機模型的概念
感知機(perceptron)是二類分類的線性分類模型,輸出爲+1和-1。感知機對應於將輸入空間(特徵空間)中的實例劃分爲正負兩類的分離超平面,屬於判決模型。
感知機模型的假設空間是定義在特徵空間中的所有線性分類模型。
第2節 感知機的學習策略
感知機模型建立在假設訓練數據是線性可分的基礎上,即假設存在這樣一個超平面可以將特徵空間劃分爲兩部分,否則,訓練數據將是線性不可分的,那麼在線性不可分的數據上也就無法學習出一個感知機模型。
1、損失函數
能直接想到的一個簡單的損失函數,就是誤分類點的個數,但是這樣的損失函數不是參數w和b的連續可導函數,優化問題不易求解,所以想到另一個損失函數的定義。
感知機所採用的損失函數就是,所有誤分類點到超平面的總距離。
計算總距離:
首先,已知,一個點x0到超平面S的距離爲:,這裏分母表示w的L2範數,通常歸一化到1。
其次,我們只需要計算誤分類點到超平面的距離就可以了。對於誤分類點(xi, yi),滿足
所以,所有誤分類點到平面wx+b=0的距離這樣計算:
其中,M表示誤分類點集合。這裏把 yi 引進來,是因爲損失函數中應該包括xi和yi,而y的取值是+1或-1,所以引入就很方便了。
當w的L2範數約束爲等於1時,我們就可以略去分母,便得到更加簡單緊湊的損失函數表達式。
第3節 感知機學習的原始形式
由上文可知,感知機模型的目標函數極小化問題是:
我們令w的L2範數爲1了。
那麼我們想到用梯度下降法求解這個最小化問題,這裏採用隨機梯度下降法(“隨機”是相對於批量梯度下降法而言的,二者的區別在我轉載的另一篇博文《
隨機梯度下降(Stochastic gradient descent)和 批量梯度下降(Batch gradient descent )的公式對比、實現對比
》中可以看到)那麼,接下來就讓我們看一下損失函數的梯度怎麼求。
設學習率爲eita,就是下面公式中的長尾巴n,那麼選取一個誤分類點(xi, yi),對w、b的更新公式爲:
綜上所述,得到感知機學習算法的原始形式:
選取不同的初始誤分類點時,可能得到不同的感知機模型。
第4節 感知機模型的對偶形式