假設前提：

所有訓練數據點都線性可分的
初值 $(w_0, b_0) = \vec{0}$

證明前的一些定義

（1）令
$\hat w = (w^T, b)^T \ \ \ \ \ 向量一般默認爲列向量 \\ \hat x = (x, 1)$
則
$\hat w \cdot \hat x = w \cdot x + b$
（2）
所有訓練數據點都線性可分
$\Rightarrow \exists$ 一個超平面，使得所有訓練數據集都被正確劃分
令這個超平面爲
$\hat w_{opt} \cdot \hat x = 0 且 ||\hat w_{opt}|| = 1 \tag {15}$
（3）令
$\gamma = min_i\{y_i(\hat w_{opt} \cdot \hat x_i)\} \tag {1}$
（4）令 $\hat w_k$ $爲更新了k次之後的$ $\hat w$
（5）令
$R = max_{1 \le i \le n}||\hat x_i|| \tag {10}$

證明過程

超平面 $\hat w_{opt} \cdot \hat x = 0$ 將所有數據都完全正確的分開
$\Rightarrow \forall (\hat x_i, y_i)$ ，有 $y_i$ $與$ $\hat w_{opt} \cdot \hat x_i$ 符號相同，且兩者都不爲0
$\Rightarrow \forall (\hat x_i, y_i)$ $，有$ $y_i(\hat w_{opt} \cdot \hat x_i)>0$
以上結論結合公式（1）得：
$y_i(\hat w_{opt} \cdot \hat x_i) \ge \gamma \gt 0 \tag {2}$

假設算法已經更新了k次，則至少有一個樣本點在超平面 $\hat w_{k-1} \cdot \hat x = 0$ 上分類錯誤
假設 $(x_i, y_i)$ 就是這個分類錯誤的點，則
$y_i(\hat w_{k-1} \cdot \hat x_i) < 0 \tag {9}$
且：
$\begin{cases} w_k = w_{k-1} + \eta y_ix_i \\ b_k = b_{k-1} + \eta y_i \end{cases} \tag {3}$
計算 $\hat w_{k}$ $與$ $\hat w_{k-1}$ 的關係：
$\hat w_k = (w_k, b_k) = (w_{k-1} + \eta y_ix_i, b_{k-1} + \eta y_i) \\ = (w_{k-1}, b_{k-1}) + (\eta y_ix_i, \eta y_i) = \hat w_{k-1} + \eta y_i (x_i, 1) = \hat w_{k-1} + \eta y_i \hat x_i$
得到：
$\hat w_k = \hat w_{k-1} + \eta y_i \hat x_i \tag {4}$
Note: 由公式（3）推公式（4）本來很簡單，之前一直推不出來是因爲我把公式（4） $\eta y_i \hat x_i$ $當成了一個數，用numpy裏面向量和數值相加的公式來算公式（4）。實際上$ $\eta y_i \hat x_i$ 也是一個n+1的向量，應該使用向量的加法來計算公式（4）。

證明 $\hat w_k \cdot \hat w_{opt} \ge k \eta \gamma$ :
$\hat w_k \cdot \hat w_{opt} = (\hat w_{k-1} + \eta y_i \hat x_i) \cdot \hat w_{opt} \tag {5}$
$= \hat w_{k-1} \cdot \hat w_{opt} + \eta y_i \hat x_i \cdot \hat w_{opt} \tag {}$
$\ge \hat w_{k-1} \cdot \hat w_{opt} + \eta \gamma \tag {6}$
$\ge \hat w_{k-2} \cdot \hat w_{opt} + 2\eta \gamma$
$\cdots \tag {}$
$\ge \hat w_0 \cdot \hat w_{opt} + k\eta \gamma$
$\ge k\eta \gamma \tag {7}$
公式說明：

步驟（5）：由公式（4）得到
步驟（6）：由公式（2）得到
步驟（7）：假設初值 $(w_0, b_0) = \vec{0}$ ？
最終得到：
$\hat w_k \cdot \hat w_{opt} \ge k \eta \gamma \tag {8}$

證明 $||\hat w_k||^2 \le k \eta^2R^2$ ：
$||\hat w_k||^2 = ||\hat w_{k-1}||^2 + 2\hat w_{k-1}\eta y_i\hat x_i + (\eta y_i \hat x_i)^2 \tag {11}$
$\lt ||\hat w_{k-1}||^2 + 0 + \eta^2\hat x_i^2 \tag{12}$
$\le ||\hat w_{k-1}||^2 + \eta^2R^2 \tag{13}$
$\le ||\hat w_{k-2}||^2 + 2\eta^2R^2$
$\cdots$
$\le ||\hat w_{0}||^2 + k\eta^2R^2 \tag{13}$
$\le k\eta^2R^2$
公式說明：

步驟（11）：結合公式（4）得到
步驟（12）：結合公式（9）得到第二項小於，第三項中 $y_i^2=1$
步驟（13）：結合公式（10）得到
最終得到：
$||\hat w_k||^2 \le k \eta^2R^2 \tag {14}$

$公式（8）\Rightarrow k\eta\gamma \le \hat w_k \cdot \hat w_{opt}$
$\Rightarrow k^2\eta^2\gamma^2 \le ||\hat w_k||^2||\hat w_{opt}||^2$
$\Rightarrow k^2\eta^2\gamma^2 \le ||\hat w_k||^2 \le \eta^2R^2 \tag {16}$
$\Rightarrow k \le (\frac {R}{\gamma})^2$
公式說明：

步驟（16）：結合公式（15）

最終結論：
$k \le (\frac {R}{\gamma})^2$
命題得證

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

2-4 梯度下降法的收斂證明

假設前提：

證明前的一些定義

證明過程

第2章感知機 - 對偶形式

2-1 感知機原始形式學習策略的推導

2-4 梯度下降法的收斂證明

4-3 樸素貝葉斯最大似然估計算法過程

4-2 樸素貝葉斯策略公式的推導

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結