2-1 感知機原始形式學習策略的推導

原創

2020-06-14 03:09

策略是指按照什麼樣的準則學習或者選擇最優的模型。
感知機是判別模型，它通過學習得到一個超平面，這個超平面將樣本分爲正負兩類。
使用的策略爲：使誤分類的點到超平面的距離之和最小

令M爲誤分類的點的集合，則損失函數爲：
$L(w, b) = \sum_{x_i \in M}dis(x_i) \tag {1}$

點 $x_0$ 到超平面 $y = w \cdot x + b$ 的距離爲：
$dis(x_0) = \frac {|w \cdot x_0 + b|}{||w||} \tag {2}$
$= \frac {|y_0 (w\cdot x_0 + b)|}{||w||} \tag {3}$
$= \frac { - y_0 (w\cdot x_0 + b)}{||w||} \tag {4}$
公式說明：

公式（1）：點到超平面的距離公式， $||w||$ 是 $w$ 的 $L_2$ 範數
公式（2）：y = -1或1
公式（3）：由感知機模型的定義可知，如果 $x_0$ 是誤分類的點，即 $x_0 \in M$ ，則 $w\cdot x_0 + b$ 與 $y_0$ 符號相反，即 $y_0 (w\cdot x_0 + b) < 0$

結合公式（1）和公式（4）得：
$L(w, b) = \sum_{x_i \in M}\frac { - y_i (w\cdot x_i + b)}{||w||} \tag {5}$

不考慮公式（5）中的 $||w||$ ，得到最終的損失函數公式如下：
$L(w, b) = - \sum_{x_i \in M}y_i (w \cdot x_i + b) \tag {6}$

爲什麼公式（5）不考慮分母 $||w||$ ?

感知機的算法過程需要對目標函數求導。
公式（5）的求導結果爲：
$\begin{cases} \nabla_wL(w,b) = - \frac{1}{||w||}\sum_{x_i \in M}y_ix_i \\ \nabla_bL(w,b) = - \frac{1}{||w||}\sum_{x_i \in M}y_i \end{cases} \tag {7}$
||w||爲w的長度，大小始終非負。
從公式（7）可以看出，||w||的存在，不影響梯度的方法，僅影響梯度下降的步長。
對於感知機梯度下降法的迭代過程，它只要求每次移動的方向是正確的，並不care移動的步長。
所以||w||是否存在不影響感知機算法的最終結果。爲什麼簡化計算，就在目標函數中去掉了分母||w||。
每次迭代不care步長，正是在cs229中被置疑的地方。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

2-1 感知機原始形式學習策略的推導

爲什麼公式（5）不考慮分母 $||w||$ ?

第2章感知機 - 對偶形式

2-1 感知機原始形式學習策略的推導

2-4 梯度下降法的收斂證明

4-3 樸素貝葉斯最大似然估計算法過程

4-2 樸素貝葉斯策略公式的推導

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

2-1 感知機原始形式 學習策略的推導

爲什麼公式（5）不考慮分母∣∣w∣∣||w||∣∣w∣∣?

2-1 感知機原始形式學習策略的推導

爲什麼公式（5）不考慮分母 $||w||$ ?