策略是指按照什麼樣的準則學習或者選擇最優的模型。
感知機是判別模型,它通過學習得到一個超平面,這個超平面將樣本分爲正負兩類。
使用的策略爲:使誤分類的點到超平面的距離之和最小
令M爲誤分類的點的集合,則損失函數爲:
L(w,b)=xi∈M∑dis(xi)(1)
點x0到超平面y=w⋅x+b的距離爲:
dis(x0)=∣∣w∣∣∣w⋅x0+b∣(2)
=∣∣w∣∣∣y0(w⋅x0+b)∣(3)
=∣∣w∣∣−y0(w⋅x0+b)(4)
公式說明:
- 公式(1):點到超平面的距離公式,∣∣w∣∣是w的L2範數
- 公式(2):y = -1或1
- 公式(3):由感知機模型的定義可知,如果x0是誤分類的點,即x0∈M, 則w⋅x0+b與y0符號相反,即y0(w⋅x0+b)<0
結合公式(1)和公式(4)得:
L(w,b)=xi∈M∑∣∣w∣∣−yi(w⋅xi+b)(5)
不考慮公式(5)中的∣∣w∣∣,得到最終的損失函數公式如下:
L(w,b)=−xi∈M∑yi(w⋅xi+b)(6)
爲什麼公式(5)不考慮分母∣∣w∣∣?
感知機的算法過程需要對目標函數求導。
公式(5)的求導結果爲:
{∇wL(w,b)=−∣∣w∣∣1∑xi∈Myixi∇bL(w,b)=−∣∣w∣∣1∑xi∈Myi(7)
||w||爲w的長度,大小始終非負。
從公式(7)可以看出,||w||的存在,不影響梯度的方法,僅影響梯度下降的步長。
對於感知機梯度下降法的迭代過程,它只要求每次移動的方向是正確的,並不care移動的步長。
所以||w||是否存在不影響感知機算法的最終結果。爲什麼簡化計算,就在目標函數中去掉了分母||w||。
每次迭代不care步長,正是在cs229中被置疑的地方。