2. 感知機

感知機

輸入空間X= $R^{n}$ , 輸出空間Y={-1,+1}. 輸入x屬於X表示實例的特徵向量,對應於輸入空間的點; 輸出y屬於Y表示實例的類別, 由輸入空間到輸出空間的如下函數

f (x) = s i g n (w * x + b)

稱爲感知機. w叫做權值,b叫做偏置, w*x表示w和x的內積(點積)

幾何解釋

w*x+b=0對應於特徵空間中的一個超平面S, w是該平面的法向量, b是截距(將平面平移到座標原點所需距離). 該平面分特徵向量爲兩部分, 分別對應正,負兩類.
原點到該平面的距離: $\frac{| b |}{| | w | |}$ . 任意一點x到超平面S的距離: $\frac{1}{| | w | |} | w * x + b |$ . (||w||是w的L2範數)

感知機的損失函數

誤分類點到超平面S的總距離.
1. 輸入空間中任一點x到超平面S的距離: $\frac{1}{| | w | |} | w * x + b |$
2. 對於誤分類的數據 $(x_{i}, y_{i})$ 來說: $- y_{i} (w * x_{i} + b) > 0$
$w * x_{i} + b > 0, 正确分类: y_{i} = + 1, 误分类: y_{i} = - 1$
$w * x_{i} + b < 0, 正确分类: y_{i} = - 1, 误分类: y_{i} = + 1$
$所以对于误分类的 (x_{i}, y_{i}), - y_{i} (w * x_{i} + b) > 0$
因此誤分類的點 $x_{i}$ 到超平面S的距離是 $- \frac{1}{| | w | |} y_{i} (w * x_{i} + b)$
3. 所有誤分類點(集合M)到超平面S的總距離爲: $- \frac{1}{| | w | |} \sum_{x_{i} \in M} y_{i} (w * x_{i} + b)$

定義
給定訓練數據集T={ $(x_{1}, y_{1}), (x_{2}, y_{2}), . . ., (x_{n}, y_{n})$ }, 其中 $x \in X = R^{n}, y \in Y = {+ 1, - 1}$ , i=1,2,…,N. 感知機f(x)=sign(w*x+b)學習的損失函數定義爲:

L (w, b) = - \sum_{x_{i} \in M} y_{i} (w * x_{i} + b) = \sum_{x_{i} \in M} | w * x_{i} + b | 其中M爲誤分類點的集合

一個特定樣本點的損失函數, 在被誤分類時是w,b的線性函數, 在正確分類時是0.
因此對於所有被誤分類點的損失函數是w,b的連續可導函數(線性模型)

學習策略

在假設空間中選取使損失函數最小的模型參數(w,b)

學習算法

感知機學習問題轉化爲求解損失函數的最優化問題.
採用隨機梯度下降法, 極小化過程不是一次使M中所有誤分類點的梯度下降, 而是一次隨機選取一個誤分類點使其梯度下降.
1. 損失函數L(w,b)的梯度: $\nabla_{w} L (w, b) = - \sum_{x_{i} \in M} y_{i} x_{i}$ , $\nabla_{b} L (w, b) = - \sum_{x_{i} \in M} y_{i}$
2. 隨機選取一個誤分類點 $(x_{i}, y_{i})$ , 對w,b進行更新: $w \leftarrow w - λ (- y_{i} x_{i}), b \leftarrow b - λ (- y_{i})$

感知機學習算法的原始形式:

感知機由於採用不同的初值或選取不同的誤分類點順序, 解可以不同

Novikoff定理

設訓練數據集T={ $(x_{1}, y_{1}), (x_{2}, y_{2}), . . ., (x_{n}, y_{n})$ }是線性可分的, 其中 $x \in X = R^{n}, y \in Y = {+ 1, - 1}$ , i=1,2,…,N. 則
1: 存在滿足條件||W||=1的超平面 W*X=wx+b=將訓練數據集完全正確分開; 且存在 $γ$ >0, 對所有的i=1,2,…,N, 有 $y_{i} (W * X) = y_{i} (w * x_{i} + b) \geq γ$ . 其中W=(w,b), X=(x,1)
2: 令R=max(X), 則感知機算法在訓練數據集上的誤分類次數k滿足 $k \leq (\frac{R}{γ})^{2}$

Proof:
設此超平面爲 $W_{o p t} * X = w_{o p t} * x + b_{o p t}$ , 使 $| | W_{o p t} | | = 1$ ,因此對於所有的i=1,2,…,N有

y_{i} (W_{o p t} * X_{i}) = y_{i} (w_{o p t} * x_{i} + b_{o p t}) > 0

所以存在

γ = m i n y_{i} (w_{o p t} * x_{i} + b_{o p t}) 使得 y_{i} (W_{o p t} * X_{i}) = y_{i} (w_{o p t} * x_{i} + b_{o p t}) \geq γ

設感知機算法從

W_{0}

開始,

W_{k - 1}

是第k個誤分類實例之前的權重向量(被正確分類的不需要更新權重向量), 即

W_{k - 1} = (w_{k - 1}, b_{k - 1})

, 則第k個誤分類實例的條件是

y_{i} (W_{k - 1} * X_{i}) = y_{i} (w_{k - 1} * x_{i} + b_{k - 1}) \leq 0

另由梯度下降法有

W_{k} = W_{k - 1} + λ y_{i} X_{i} (w_{k} = w_{k - 1} + λ y_{i} x_{i}; b_{k} = b_{k - 1} + λ y_{i})

所以有如下不等式:

W_{K} * W_{o p t} = W_{k - 1} * W_{o p t} + λ y_{i} X_{i} * W_{o p t} \geq W_{k - 1} * W_{o p t} + λ γ

由以上公式递推得到: W_{k} * W_{o p t} \geq W_{k - 1} * W_{o p t} + λ γ \geq W_{k - 2} * W_{o p t} + 2 λ γ \geq k λ γ

$\begin{aligned} | | W_{k} | |^{2} & = | | W_{k - 1} + λ y_{i} X_{i} | |^{2} = | | W_{k - 1} | |^{2} + λ^{2} | | X_{i} | |^{2} + 2 W_{k - 1} * λ y_{i} X_{i} (y_{i}^{2} = 1) & \leq | | W_{k - 1} | |^{2} + λ^{2} | | X_{i} | |^{2} (0 \leq λ \leq 1, y_{i} (W_{k - 1} * X_{i}) \leq 0) & \leq | | W_{k - 1} | |^{2} + λ^{2} R^{2} (R = m a x (X)) & \leq | | W_{k - 2} | |^{2} + 2 λ^{2} R^{2} \leq \dots \dots & \leq k λ^{2} R^{2} \end{aligned}$

$向量点积: A * B = | A | | B | \cos θ, 得到: A * B \leq | A | | B |$

$k λ γ \leq W_{k} * W_{o p t} \leq | | W_{k} | | * | | W_{o p t} | | \leq \sqrt{k} λ R, 由此得到: k^{2} γ^{2} \leq k R^{2}, 即 k \leq (\frac{R}{γ})^{2}$

以上證明表面: 當訓練數據集線性可分時, 誤分類的次數K是有上限的, 即經過有限次搜索一定可以找到將訓練數據集完全正確分開的分離超平面.

感知機學習算法的對偶形式:

其中的 $a_{i} = n_{i} λ, n_{i}$ 表示第i個數據被誤分類的次數, 則w,b關於 $(x_{i}, y_{i})$ 的增量分別是 $a_{i} y_{i} x_{i}$ 和 $a_{i} y_{i}$
$w = \sum_{i = 1}^{N} a_{i} y_{i} x_{i}, b = \sum_{i = 1}^{N} a_{i} y_{i}$

Gram矩陣: 預先將訓練集中實例間的內積計算出來並以矩陣的形式存儲

對偶形式和原始形式本質是一致的, 對偶形式會事先計算實例間的內積, 所以比原始形式有更快的速度

感知機

幾何解釋

感知機的損失函數

學習策略

學習算法

10分鐘搞定Mysql主從部署配置

如何使用 JS 判斷用戶是否處於活躍狀態

「Pygors跨平臺GUI」2：安裝MinGW-w64、MSYS2還是WSL2

[轉帖]

python列出centos7內存使用前50的進程信息

「Pygors跨平臺GUI」1：Pygors跨平臺GUI應用研究

一鍵自動化博客發佈工具,用過的人都說好(掘金篇)

lightdb數據庫超時相關控制參數

lightdb秒級增加列和刪除列（not null帶默認值）

Java ThreadPoolShutdown

4. 樸素貝葉斯

2. 感知機

3. k近鄰學習

1. 統計學習方法概論

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結