第二章-感知機

看完上一章的概要學習後，開始就進入第二章的內容——感知機。對於統計學習方法而言，包含三要素，模型+策略+算法，接下來就從以下三個要素全面瞭解感知機。

感知機模型

簡單來說，感知機（Perceptron）針對的是二分類的線性模型，其輸入爲實例的特徵向量，輸出爲實例的類別，取+1、-1。利用數學語言抽象模型可以這樣描述：
$假設輸入空間（特徵空間）是\chi \in R^n,輸出空間是y={+1,-1},輸入x\in \chi表示實例的特徵向量，\\ 對應於輸入空間的點；輸出y\in Y表示實例的類別。由輸入空間到輸出空間滿足如下函數：\\ f(x)= sign(w \cdot x + b )\\ 其中w是權重參數，b是偏置項，sign是符號函數，即：\\ sign(x) = \left\{ \begin{aligned} 1 & , & x \geq 0 \\ -1 & , & x < 0 \end{aligned} \right.$
感知機模型屬於判別模型，旨在求出將訓練數據進行線性劃分的分離超平面。如圖所示：

感知機學習策略

在對於一個訓練數據集是線性可分的情況下，感知機學習的目標就是在於找到一個可以將正實例點和負實例點完全正確分隔開的超平面。既然要明確這樣一個分離超平面，那麼就需要確定一個感知機模型，也就是需要確定一個學習策略，即定義損失函數並將損失函數最小化。

對於常見的損失函數就是一個自然選擇是誤分類點的總數，但是這樣的一個損失函數並不是連續可導函數，不容易優化，那麼另一個選擇就是誤分類點到超平面的總距離。即可抽象描述爲：
$輸入空間R_n中任意一點x_0到超平面S的距離可表示爲： \frac{|w \cdot x + b|}{||w||},其中||w||表示爲w的L2範數$
其次，對於誤分類點(x,y)來說，-y(w x+b)>0成立。
$\because w \cdot x + b > 0時，y_i=1 \\ 又\because w \cdot x + b > 0時，y_i=-1 \\ \therefore 總距離爲：- \frac{1}{||w||}\sum_{X_i \in M} y_i(w \cdot x + b)$
由此，可這樣描述爲：
$給定數據集T={(X_1,Y_1),(X_2,Y_2)...(X_N,Y_N)},其中，x_i \in \chi=R^n,y_i \in Y={+1,-1},i=1,2,...N \\ 損失函數定義爲：L(w,b)=-\sum_{X_i \in M} y_i(w \cdot x + b),\\其中M時誤分類點的集合$

感知機算法

感知機的學習問題轉化爲求解損失函數的的最優化問題，其最優化的方向是隨機梯度下降法(Stochastic Gradient Descent)。（每次迭代更新的是兩個向量）

原始形式

$輸入：訓練數據集T={(X_1,Y_1),(X_2,Y_2)...(X_N,Y_N)},\\ 其中，x_i \in \chi=R^n,y_i \in Y={+1,-1},i=1,2,...N \\;學習率\eta(0<\eta \leq 1);\\ 輸出:w,b;感知機模型f(x)=sign(w \cdot x + b)\\ (1) 選取初值w_0,b_0;\\ (2) 在訓練集中選取數據(x_i,y_i)\\ (3) 如果y_i(w \cdot x + b) \leq 0 \\ w \leftarrow w + \eta y_ix_i\\ b \leftarrow b+\eta y_i\\ (4)轉至（2），直至訓練集中沒有誤分類點$

對偶形式

對偶形式的基本思想是將w和b表示爲實例x和標記y的線性組合形式，通過求解其係數而求得w和b，從而逐步更新w和b。那麼w和b關於(x,y)的增量分別描述爲：
$w = \sum_{i=1}^N \alpha_iy_ix_i\\ b=\sum_{i=1}^N \alpha_iy_i \\ 其中，\alpha_i=n_i\eta.實例點更新越多，表示距離分離超平面越近，也就是比較難分類。$
以下可以對照着原始形式來描述對偶形式：
$輸入：訓練數據集T={(X_1,Y_1),(X_2,Y_2)...(X_N,Y_N)},\\ 其中，x_i \in \chi=R^n,y_i \in Y={+1,-1},i=1,2,...N \\;學習率\eta(0<\eta \leq 1);\\ 輸出:w,b;感知機模型f(x)=sign(\sum_{i=1}^N \alpha_iy_ix_i \cdot x + b)\\ 其中\alpha =(\alpha_1,\alpha_2,\alpha_3,...\alpha_N)\\ (1) \alpha \leftarrow 0,b \leftarrow 0;\\ (2) 在訓練集中選取數據(x_i,y_i)\\ (3) 如果y_i(\sum_{i=1}^N \alpha_iy_ix_i \cdot x_i + b) \leq 0\\ \alpha_i \leftarrow \alpha_i + \eta b \leftarrow + \eta y_i (4) 轉至(2)直至沒有誤分類點$
其實對偶形式中訓練實例僅以內積的形式出現，爲了方便，其實可以將訓練集中的實例間的內積先計算出來以矩陣形式進行存儲，這個矩陣即是所謂的Gram矩陣，即：
$G = [x_i \cdot x_j]_{N \times N}$
回過頭來對比原始形式，可以看出原始形式實質每次更新的是兩個向量，其計算量比較大，但是對偶形式由於可以先將實例間的內積先計算出來進行存儲，因此對偶形式每次迭代更新的就是數據，相比較而言，更新代價小。

Novikoff定理的數學推導

$定理描述：設訓練集T={(x_1,y_1),(x_2,y_2)...(x_N,y_N)}是線性可分的，\\ 其中x_i \in \chi=R^n,y_i \in Y={+1,-1},i=1,2,3...N,則：\\ (1) 存在滿足條件||\hat{w}||=1的超平面\hat{w}_{opt} \cdot \hat{x}=w_{opt} \cdot x+b_{opt}=0將訓練數據集完全正確分開；且存在\gamma>0,\\ 對所有i=1,2...N滿足：\\ y_i(\hat{w}_{opt} \cdot \hat{x})=y_i(w_{opt} \cdot x+b_{opt}) \geq \gamma\\ (2)令R=max||\hat{x_i}||,則感知機在訓練集的誤分類次數k滿足不等式：\\ k \leq (\frac{R}{\gamma})^2$

證明

爲了便於描述推導過程，將偏置b併入權重向量w中,同樣也將輸入向量作爲擴充，加進常數1。

$基於以上的提示，可得到\hat{w}=(w^T,b)^T;\hat{x}=(x^T,1)^T;\hat{x} \in R^{n+1};\hat{w} \in R^{n+1} \\ 1.證明（1）：由於訓練集是線性可分的，因此存在超平面將數據集完全正確分開，\\ 取超平面\hat{w}_{opt} \cdot \hat{x}=w_{opt} \cdot x+b_{opt}=0,使得||\hat(w)_{opt}||=1.\\ 對有限的i=1，2...N，均有\\ y_i(\hat{w}_{opt} \cdot \hat{x})=y_i(w_{opt} \cdot x+b_{opt}) \geq 0 \\ 所以存在，\gamma = min(y_i(w_{opt} \cdot x+b_{opt})),\\ 使得y_i(\hat{w}_{opt} \cdot \hat{x})=y_i(w_{opt} \cdot x+b_{opt}) \geq \gamma \\ 2.證明(2): 感知機算法從\hat{w}=1開始，如果實例被誤分類，則更新權重。\\ 令\hat{w_{k-1}}是第k個誤分類實例之前的擴充權重向量，即:\\ \hat{w_{k-1}}=(w_{k-1}^T,b_{k-1})^T \\ 那麼存在：\\ y_i(\hat{w}_{k-1} \cdot \hat{x})=y_i(w_{k-1} \cdot x+b_{k-1}) \leq 0 \\ 若(x_i,y_i)是被\hat{w_{k-1}}=(w_{k-1}^T,b_{k-1})^T誤分類的數據，那麼w和b的更新是:\\ w_{k-1} \leftarrow w_{k-1} + \eta y_ix_i\\ b_{k-1} \leftarrow b_{k-1} +\eta y_i\\ 即:\\ \hat{w_{k}} = \hat{w_{k-1}} + \eta y_i\hat{x_i} \\ \therefore \hat{w_{k}} \cdot \hat{w_{opt}} \\ = (\hat{w_{k-1}} + \eta y_i\hat{x_i}) \cdot \hat{w_{opt}} \\ = \hat{w_{k-1}} \cdot \hat{w_{opt}} + \eta y_i \hat{w_{opt}} \cdot \hat{x_i} \\ \geq \hat{w_{k-1}} \cdot \hat{w_{opt}} + \eta\gamma \\ \geq \hat{w_{k-2}} \cdot \hat{w_{opt}} + 2\eta\gamma \\ \geq \hat{w_{k-3}} \cdot \hat{w_{opt}} + 3\eta\gamma ... \geq k\eta\gamma \\ 又\because ||\hat{w_k}||^2 \\ = (\hat{w_{k-1}} + \eta y_i\hat{x_i})^2 \\ = ||\hat{w_{k-1}}||^2 + 2\eta y_i\hat{w_{k-1}} \cdot \hat{x_i} + \eta^2||\hat{x_i}||^2 \\ \leq ||\hat{w_{k-1}}||^2 + \eta^2||\hat{x_i}||^2 \\ \leq ||\hat{w_{k-1}}||^2 + \eta^2R^2 \\ \leq ||\hat{w_{k-2}}||^2 + 2\eta^2R^2 ... \leq k\eta^2R^2 \\ \therefore 由不等式可得: \\ k\eta \gamma \leq \hat{w_{k}} \cdot \hat{w_{opt}} \leq ||\hat{w_{k}}||\hat{w_{opt}} \leq \sqrt{k}\eta R \\ \therefore k^2 \gamma^2 \leq kR^2 \\ \therefore 既可得證:k \leq (\frac{R}{\gamma})^2$

思考

1.感知機模型的假設空間是什麼？模型的複雜度體現在哪兒？

感知機是一種線性分類模型，屬於判別模型。其假設空間實在定義特徵空間中所有線性分類模型，也就是wx+b；

其模型複雜度體現在所有實例的特徵數量，也就是特徵維度上。

第二章-感知機

感知機模型

感知機學習策略

感知機算法

原始形式

對偶形式

Novikoff定理的數學推導

證明

思考

linux安裝cuda和cudnn

模擬手機設備：使用 Playwright 實現移動端自動化測試

Mellanox網卡開啓SR-IOV

全面系統的AI學習路徑，幫助普通人也能玩轉AI

HTML 00 Tutorial

uni-app實現上拉加載

vue3編譯優化之“靜態提升”

又是一個月-20240513

flask 如何保證返回json有序

linux服務器設置ssh免密

強化學習課程學習（2）——必備數學基礎集錦

第七章-SVM支持向量機

Python數據分析-Numpy

第五章-一起看決策樹如何做出決策？

第八章-提升方法AdaBoost算法

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結