2-4 梯度下降法的收斂證明

證明:經過有限次迭代,可以得到一個將線性可分的訓練數據集完全正確劃分的分離超平面及感知機模型

當訓練數據集線性不可分時,算法不收斂

假設前提:

  1. 所有訓練數據點都線性可分的
  2. 初值(w0,b0)=0(w_0, b_0) = \vec{0}

證明前的一些定義

(1)令
w^=(wT,b)T     x^=(x,1) \hat w = (w^T, b)^T \ \ \ \ \ 向量一般默認爲列向量 \\ \hat x = (x, 1)

w^x^=wx+b \hat w \cdot \hat x = w \cdot x + b
(2)
所有訓練數據點都線性可分
\Rightarrow \exists一個超平面,使得所有訓練數據集都被正確劃分
令這個超平面爲
w^optx^=0w^opt=1(15) \hat w_{opt} \cdot \hat x = 0 且 ||\hat w_{opt}|| = 1 \tag {15}
(3)令
γ=mini{yi(w^optx^i)}(1) \gamma = min_i\{y_i(\hat w_{opt} \cdot \hat x_i)\} \tag {1}
(4)令w^k\hat w_kk爲更新了k次之後的w^\hat w
(5)令
R=max1inx^i(10) R = max_{1 \le i \le n}||\hat x_i|| \tag {10}

證明過程

超平面w^optx^=0\hat w_{opt} \cdot \hat x = 0將所有數據都完全正確的分開
(x^i,yi)\Rightarrow \forall (\hat x_i, y_i),有yiy_iw^optx^i\hat w_{opt} \cdot \hat x_i符號相同,且兩者都不爲0
(x^i,yi)\Rightarrow \forall (\hat x_i, y_i),有yi(w^optx^i)>0y_i(\hat w_{opt} \cdot \hat x_i)>0
以上結論結合公式(1)得:
yi(w^optx^i)γ>0(2) y_i(\hat w_{opt} \cdot \hat x_i) \ge \gamma \gt 0 \tag {2}


假設算法已經更新了k次,則至少有一個樣本點在超平面w^k1x^=0\hat w_{k-1} \cdot \hat x = 0上分類錯誤
假設(xi,yi)(x_i, y_i)就是這個分類錯誤的點,則
yi(w^k1x^i)<0(9) y_i(\hat w_{k-1} \cdot \hat x_i) < 0 \tag {9}
且:
{wk=wk1+ηyixibk=bk1+ηyi(3) \begin{cases} w_k = w_{k-1} + \eta y_ix_i \\ b_k = b_{k-1} + \eta y_i \end{cases} \tag {3}
計算w^k\hat w_{k}w^k1\hat w_{k-1}的關係:
w^k=(wk,bk)=(wk1+ηyixi,bk1+ηyi)=(wk1,bk1)+(ηyixi,ηyi)=w^k1+ηyi(xi,1)=w^k1+ηyix^i \hat w_k = (w_k, b_k) = (w_{k-1} + \eta y_ix_i, b_{k-1} + \eta y_i) \\ = (w_{k-1}, b_{k-1}) + (\eta y_ix_i, \eta y_i) = \hat w_{k-1} + \eta y_i (x_i, 1) = \hat w_{k-1} + \eta y_i \hat x_i
得到:
w^k=w^k1+ηyix^i(4) \hat w_k = \hat w_{k-1} + \eta y_i \hat x_i \tag {4}
Note: 由公式(3)推公式(4)本來很簡單,之前一直推不出來是因爲我把公式(4)ηyix^i\eta y_i \hat x_inumpy4當成了一個數,用numpy裏面向量和數值相加的公式來算公式(4)。實際上ηyix^i\eta y_i \hat x_i也是一個n+1的向量,應該使用向量的加法來計算公式(4)。


證明w^kw^optkηγ\hat w_k \cdot \hat w_{opt} \ge k \eta \gamma:
w^kw^opt=(w^k1+ηyix^i)w^opt(5) \hat w_k \cdot \hat w_{opt} = (\hat w_{k-1} + \eta y_i \hat x_i) \cdot \hat w_{opt} \tag {5}
=w^k1w^opt+ηyix^iw^opt() = \hat w_{k-1} \cdot \hat w_{opt} + \eta y_i \hat x_i \cdot \hat w_{opt} \tag {}
w^k1w^opt+ηγ(6) \ge \hat w_{k-1} \cdot \hat w_{opt} + \eta \gamma \tag {6}
w^k2w^opt+2ηγ \ge \hat w_{k-2} \cdot \hat w_{opt} + 2\eta \gamma
() \cdots \tag {}
w^0w^opt+kηγ \ge \hat w_0 \cdot \hat w_{opt} + k\eta \gamma
kηγ(7) \ge k\eta \gamma \tag {7}
公式說明:

  1. 步驟(5):由公式(4)得到
  2. 步驟(6):由公式(2)得到
  3. 步驟(7):假設初值(w0,b0)=0(w_0, b_0) = \vec{0}
    最終得到:
    w^kw^optkηγ(8) \hat w_k \cdot \hat w_{opt} \ge k \eta \gamma \tag {8}

證明w^k2kη2R2||\hat w_k||^2 \le k \eta^2R^2
w^k2=w^k12+2w^k1ηyix^i+(ηyix^i)2(11) ||\hat w_k||^2 = ||\hat w_{k-1}||^2 + 2\hat w_{k-1}\eta y_i\hat x_i + (\eta y_i \hat x_i)^2 \tag {11}
<w^k12+0+η2x^i2(12) \lt ||\hat w_{k-1}||^2 + 0 + \eta^2\hat x_i^2 \tag{12}
w^k12+η2R2(13) \le ||\hat w_{k-1}||^2 + \eta^2R^2 \tag{13}
w^k22+2η2R2 \le ||\hat w_{k-2}||^2 + 2\eta^2R^2
\cdots
w^02+kη2R2(13) \le ||\hat w_{0}||^2 + k\eta^2R^2 \tag{13}
kη2R2 \le k\eta^2R^2
公式說明:

  1. 步驟(11):結合公式(4)得到
  2. 步驟(12):結合公式(9)得到第二項小於,第三項中yi2=1y_i^2=1
  3. 步驟(13):結合公式(10)得到
    最終得到:
    w^k2kη2R2(14) ||\hat w_k||^2 \le k \eta^2R^2 \tag {14}

8kηγw^kw^opt 公式(8)\Rightarrow k\eta\gamma \le \hat w_k \cdot \hat w_{opt}
k2η2γ2w^k2w^opt2 \Rightarrow k^2\eta^2\gamma^2 \le ||\hat w_k||^2||\hat w_{opt}||^2
k2η2γ2w^k2η2R2(16) \Rightarrow k^2\eta^2\gamma^2 \le ||\hat w_k||^2 \le \eta^2R^2 \tag {16}
k(Rγ)2 \Rightarrow k \le (\frac {R}{\gamma})^2
公式說明:

  1. 步驟(16):結合公式(15)

最終結論:
k(Rγ)2 k \le (\frac {R}{\gamma})^2
命題得證

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章