2-1 感知機原始形式 學習策略的推導

策略是指按照什麼樣的準則學習或者選擇最優的模型。
感知機是判別模型,它通過學習得到一個超平面,這個超平面將樣本分爲正負兩類。
使用的策略爲:使誤分類的點到超平面的距離之和最小

令M爲誤分類的點的集合,則損失函數爲:
L(w,b)=xiMdis(xi)(1) L(w, b) = \sum_{x_i \in M}dis(x_i) \tag {1}

x0x_0到超平面y=wx+by = w \cdot x + b的距離爲:
dis(x0)=wx0+bw(2) dis(x_0) = \frac {|w \cdot x_0 + b|}{||w||} \tag {2}
=y0(wx0+b)w(3) = \frac {|y_0 (w\cdot x_0 + b)|}{||w||} \tag {3}
=y0(wx0+b)w(4) = \frac { - y_0 (w\cdot x_0 + b)}{||w||} \tag {4}
公式說明:

  1. 公式(1):點到超平面的距離公式,w||w||wwL2L_2範數
  2. 公式(2):y = -1或1
  3. 公式(3):由感知機模型的定義可知,如果x0x_0是誤分類的點,即x0Mx_0 \in M, 則wx0+bw\cdot x_0 + by0y_0符號相反,即y0(wx0+b)<0y_0 (w\cdot x_0 + b) < 0

結合公式(1)和公式(4)得:
L(w,b)=xiMyi(wxi+b)w(5) L(w, b) = \sum_{x_i \in M}\frac { - y_i (w\cdot x_i + b)}{||w||} \tag {5}

不考慮公式(5)中的w||w||,得到最終的損失函數公式如下:
L(w,b)=xiMyi(wxi+b)(6) L(w, b) = - \sum_{x_i \in M}y_i (w \cdot x_i + b) \tag {6}

爲什麼公式(5)不考慮分母w||w||?

感知機的算法過程需要對目標函數求導。
公式(5)的求導結果爲:
{wL(w,b)=1wxiMyixibL(w,b)=1wxiMyi(7) \begin{cases} \nabla_wL(w,b) = - \frac{1}{||w||}\sum_{x_i \in M}y_ix_i \\ \nabla_bL(w,b) = - \frac{1}{||w||}\sum_{x_i \in M}y_i \end{cases} \tag {7}
||w||爲w的長度,大小始終非負。
從公式(7)可以看出,||w||的存在,不影響梯度的方法,僅影響梯度下降的步長。
對於感知機梯度下降法的迭代過程,它只要求每次移動的方向是正確的,並不care移動的步長。
所以||w||是否存在不影響感知機算法的最終結果。爲什麼簡化計算,就在目標函數中去掉了分母||w||。
每次迭代不care步長,正是在cs229中被置疑的地方。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章