第二章-感知機

看完上一章的概要學習後,開始就進入第二章的內容——感知機。對於統計學習方法而言,包含三要素,模型+策略+算法,接下來就從以下三個要素全面瞭解感知機。

感知機模型

簡單來說,感知機(Perceptron)針對的是二分類的線性模型,其輸入爲實例的特徵向量,輸出爲實例的類別,取+1、-1。利用數學語言抽象模型可以這樣描述:
χRn,y=+1,1,xχyY滿f(x)=sign(wx+b)wbsignsign(x)={1,x01,x<0 假設輸入空間(特徵空間)是\chi \in R^n,輸出空間是y={+1,-1},輸入x\in \chi表示實例的特徵向量,\\ 對應於輸入空間的點;輸出y\in Y表示實例的類別。由輸入空間到輸出空間滿足如下函數:\\ f(x)= sign(w \cdot x + b )\\ 其中w是權重參數,b是偏置項,sign是符號函數,即:\\ sign(x) = \left\{ \begin{aligned} 1 & , & x \geq 0 \\ -1 & , & x < 0 \end{aligned} \right.
感知機模型屬於判別模型,旨在求出將訓練數據進行線性劃分的分離超平面。如圖所示:

感知機學習策略

在對於一個訓練數據集是線性可分的情況下,感知機學習的目標就是在於找到一個可以將正實例點和負實例點完全正確分隔開的超平面。既然要明確這樣一個分離超平面,那麼就需要確定一個感知機模型,也就是需要確定一個學習策略,即定義損失函數並將損失函數最小化。

對於常見的損失函數就是一個自然選擇是誤分類點的總數,但是這樣的一個損失函數並不是連續可導函數,不容易優化,那麼另一個選擇就是誤分類點到超平面的總距離。即可抽象描述爲:
Rnx0Swx+bw,wwL2 輸入空間R_n中任意一點x_0到超平面S的距離可表示爲: \frac{|w \cdot x + b|}{||w||},其中||w||表示爲w的L2範數
其次,對於誤分類點(x,y)來說,-y(w x+b)>0成立。
wx+b>0yi=1wx+b>0yi=11wXiMyi(wx+b) \because w \cdot x + b > 0時,y_i=1 \\ 又\because w \cdot x + b > 0時,y_i=-1 \\ \therefore 總距離爲:- \frac{1}{||w||}\sum_{X_i \in M} y_i(w \cdot x + b)
由此,可這樣描述爲:
T=(X1,Y1),(X2,Y2)...(XN,YN),xiχ=Rn,yiY=+1,1,i=1,2,...NL(w,b)=XiMyi(wx+b),M 給定數據集T={(X_1,Y_1),(X_2,Y_2)...(X_N,Y_N)},其中,x_i \in \chi=R^n,y_i \in Y={+1,-1},i=1,2,...N \\ 損失函數定義爲:L(w,b)=-\sum_{X_i \in M} y_i(w \cdot x + b),\\其中M時誤分類點的集合

感知機算法

感知機的學習問題轉化爲求解損失函數的的最優化問題,其最優化的方向是隨機梯度下降法(Stochastic Gradient Descent)。(每次迭代更新的是兩個向量)

原始形式

T=(X1,Y1),(X2,Y2)...(XN,YN),xiχ=Rn,yiY=+1,1,i=1,2,...N;η(0<η1);:w,b;f(x)=sign(wx+b)(1)w0,b0;(2)(xi,yi)(3)yi(wx+b)0ww+ηyixibb+ηyi(4)2 輸入:訓練數據集T={(X_1,Y_1),(X_2,Y_2)...(X_N,Y_N)},\\ 其中,x_i \in \chi=R^n,y_i \in Y={+1,-1},i=1,2,...N \\;學習率\eta(0<\eta \leq 1);\\ 輸出:w,b;感知機模型f(x)=sign(w \cdot x + b)\\ (1) 選取初值w_0,b_0;\\ (2) 在訓練集中選取數據(x_i,y_i)\\ (3) 如果y_i(w \cdot x + b) \leq 0 \\ w \leftarrow w + \eta y_ix_i\\ b \leftarrow b+\eta y_i\\ (4)轉至(2),直至訓練集中沒有誤分類點

對偶形式

對偶形式的基本思想是將w和b表示爲實例x和標記y的線性組合形式,通過求解其係數而求得w和b,從而逐步更新w和b。那麼w和b關於(x,y)的增量分別描述爲:
w=i=1Nαiyixib=i=1Nαiyiαi=niη. w = \sum_{i=1}^N \alpha_iy_ix_i\\ b=\sum_{i=1}^N \alpha_iy_i \\ 其中,\alpha_i=n_i\eta.實例點更新越多,表示距離分離超平面越近,也就是比較難分類。
以下可以對照着原始形式來描述對偶形式:
T=(X1,Y1),(X2,Y2)...(XN,YN),xiχ=Rn,yiY=+1,1,i=1,2,...N;η(0<η1);:w,b;f(x)=sign(i=1Nαiyixix+b)α=(α1,α2,α3,...αN)(1)α0,b0;(2)(xi,yi)(3)yi(i=1Nαiyixixi+b)0αiαi+ηb+ηyi(4)(2) 輸入:訓練數據集T={(X_1,Y_1),(X_2,Y_2)...(X_N,Y_N)},\\ 其中,x_i \in \chi=R^n,y_i \in Y={+1,-1},i=1,2,...N \\;學習率\eta(0<\eta \leq 1);\\ 輸出:w,b;感知機模型f(x)=sign(\sum_{i=1}^N \alpha_iy_ix_i \cdot x + b)\\ 其中\alpha =(\alpha_1,\alpha_2,\alpha_3,...\alpha_N)\\ (1) \alpha \leftarrow 0,b \leftarrow 0;\\ (2) 在訓練集中選取數據(x_i,y_i)\\ (3) 如果y_i(\sum_{i=1}^N \alpha_iy_ix_i \cdot x_i + b) \leq 0\\ \alpha_i \leftarrow \alpha_i + \eta b \leftarrow + \eta y_i (4) 轉至(2)直至沒有誤分類點
其實對偶形式中訓練實例僅以內積的形式出現,爲了方便,其實可以將訓練集中的實例間的內積先計算出來以矩陣形式進行存儲,這個矩陣即是所謂的Gram矩陣,即:
G=[xixj]N×N G = [x_i \cdot x_j]_{N \times N}
回過頭來對比原始形式,可以看出原始形式實質每次更新的是兩個向量,其計算量比較大,但是對偶形式由於可以先將實例間的內積先計算出來進行存儲,因此對偶形式每次迭代更新的就是數據,相比較而言,更新代價小。

Novikoff定理的數學推導

T=(x1,y1),(x2,y2)...(xN,yN)xiχ=Rn,yiY=+1,1,i=1,2,3...N,(1)滿w^=1w^optx^=woptx+bopt=0γ>0,i=1,2...N滿yi(w^optx^)=yi(woptx+bopt)γ(2)R=maxxi^,k滿k(Rγ)2 定理描述: 設訓練集T={(x_1,y_1),(x_2,y_2)...(x_N,y_N)}是線性可分的,\\ 其中x_i \in \chi=R^n,y_i \in Y={+1,-1},i=1,2,3...N,則:\\ (1) 存在滿足條件||\hat{w}||=1的超平面\hat{w}_{opt} \cdot \hat{x}=w_{opt} \cdot x+b_{opt}=0將訓練數據集完全正確分開;且存在\gamma>0,\\ 對所有i=1,2...N滿足:\\ y_i(\hat{w}_{opt} \cdot \hat{x})=y_i(w_{opt} \cdot x+b_{opt}) \geq \gamma\\ (2)令R=max||\hat{x_i}||,則感知機在訓練集的誤分類次數k滿足不等式:\\ k \leq (\frac{R}{\gamma})^2

證明

爲了便於描述推導過程,將偏置b併入權重向量w中,同樣也將輸入向量作爲擴充,加進常數1

w^=(wT,b)T;x^=(xT,1)T;x^Rn+1;w^Rn+11.1w^optx^=woptx+bopt=0,使(^w)opt=1.i=12...Nyi(w^optx^)=yi(woptx+bopt)0γ=min(yi(woptx+bopt)),使yi(w^optx^)=yi(woptx+bopt)γ2.(2):w^=1wk1^k:wk1^=(wk1T,bk1)Tyi(w^k1x^)=yi(wk1x+bk1)0(xi,yi)wk1^=(wk1T,bk1)Twb:wk1wk1+ηyixibk1bk1+ηyi:wk^=wk1^+ηyixi^wk^wopt^=(wk1^+ηyixi^)wopt^=wk1^wopt^+ηyiwopt^xi^wk1^wopt^+ηγwk2^wopt^+2ηγwk3^wopt^+3ηγ...kηγwk^2=(wk1^+ηyixi^)2=wk1^2+2ηyiwk1^xi^+η2xi^2wk1^2+η2xi^2wk1^2+η2R2wk2^2+2η2R2...kη2R2:kηγwk^wopt^wk^wopt^kηRk2γ2kR2:k(Rγ)2 基於以上的提示,可得到\hat{w}=(w^T,b)^T;\hat{x}=(x^T,1)^T;\hat{x} \in R^{n+1};\hat{w} \in R^{n+1} \\ 1.證明(1): 由於訓練集是線性可分的,因此存在超平面將數據集完全正確分開,\\ 取超平面\hat{w}_{opt} \cdot \hat{x}=w_{opt} \cdot x+b_{opt}=0,使得||\hat(w)_{opt}||=1.\\ 對有限的i=1,2...N,均有\\ y_i(\hat{w}_{opt} \cdot \hat{x})=y_i(w_{opt} \cdot x+b_{opt}) \geq 0 \\ 所以存在,\gamma = min(y_i(w_{opt} \cdot x+b_{opt})),\\ 使得y_i(\hat{w}_{opt} \cdot \hat{x})=y_i(w_{opt} \cdot x+b_{opt}) \geq \gamma \\ 2.證明(2): 感知機算法從\hat{w}=1開始,如果實例被誤分類,則更新權重。\\ 令\hat{w_{k-1}}是第k個誤分類實例之前的擴充權重向量,即:\\ \hat{w_{k-1}}=(w_{k-1}^T,b_{k-1})^T \\ 那麼存在:\\ y_i(\hat{w}_{k-1} \cdot \hat{x})=y_i(w_{k-1} \cdot x+b_{k-1}) \leq 0 \\ 若(x_i,y_i)是被\hat{w_{k-1}}=(w_{k-1}^T,b_{k-1})^T誤分類的數據,那麼w和b的更新是:\\ w_{k-1} \leftarrow w_{k-1} + \eta y_ix_i\\ b_{k-1} \leftarrow b_{k-1} +\eta y_i\\ 即:\\ \hat{w_{k}} = \hat{w_{k-1}} + \eta y_i\hat{x_i} \\ \therefore \hat{w_{k}} \cdot \hat{w_{opt}} \\ = (\hat{w_{k-1}} + \eta y_i\hat{x_i}) \cdot \hat{w_{opt}} \\ = \hat{w_{k-1}} \cdot \hat{w_{opt}} + \eta y_i \hat{w_{opt}} \cdot \hat{x_i} \\ \geq \hat{w_{k-1}} \cdot \hat{w_{opt}} + \eta\gamma \\ \geq \hat{w_{k-2}} \cdot \hat{w_{opt}} + 2\eta\gamma \\ \geq \hat{w_{k-3}} \cdot \hat{w_{opt}} + 3\eta\gamma ... \geq k\eta\gamma \\ 又\because ||\hat{w_k}||^2 \\ = (\hat{w_{k-1}} + \eta y_i\hat{x_i})^2 \\ = ||\hat{w_{k-1}}||^2 + 2\eta y_i\hat{w_{k-1}} \cdot \hat{x_i} + \eta^2||\hat{x_i}||^2 \\ \leq ||\hat{w_{k-1}}||^2 + \eta^2||\hat{x_i}||^2 \\ \leq ||\hat{w_{k-1}}||^2 + \eta^2R^2 \\ \leq ||\hat{w_{k-2}}||^2 + 2\eta^2R^2 ... \leq k\eta^2R^2 \\ \therefore 由不等式可得: \\ k\eta \gamma \leq \hat{w_{k}} \cdot \hat{w_{opt}} \leq ||\hat{w_{k}}||\hat{w_{opt}} \leq \sqrt{k}\eta R \\ \therefore k^2 \gamma^2 \leq kR^2 \\ \therefore 既可得證:k \leq (\frac{R}{\gamma})^2

思考

1.感知機模型的假設空間是什麼?模型的複雜度體現在哪兒?

感知機是一種線性分類模型,屬於判別模型。其假設空間實在定義特徵空間中所有線性分類模型,也就是wx+b;

其模型複雜度體現在所有實例的特徵數量,也就是特徵維度上。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章