支持向量機（ $SVM$ ）

1 導讀部分

$SVM$ 是一種二分類模型
$SVM$ 的基本模型是定義在特徵空間上的間隔最大的線性分類器
$SVM$ 還包括核技巧，這使得它成爲非線性分類器
$SVM$ 的學習策略是間隔最大化，可形式化爲一個求解凸二次規劃的問題，也等價於正則化的合頁損失函數的最小化問題
$SVM$ 模型由簡至繁的分類：
- 線性可分支持向量機：訓練數據線性可分，通過硬間隔最大化，學習一個線性的分類器
- 線性支持向量機：訓練數據近似線性可分，通過軟間隔最大化，學習一個線性的分類器
- 非線性支持向量機：訓練數據線性不可分，通過核技巧和軟間隔最大化，學習一個非線性的分類器

2 線性可分支持向量機與硬間隔最大化

一個特徵空間上的數據集：

$T=\left\{\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right), \cdots,\left(x_{N}, y_{N}\right)\right\}$ ，其中 $x_{i} \in \mathcal{X}=\mathbf{R}^{n},y_{i} \in \mathcal{Y}=\{+1,-1\}$ ， $i=1,2, \cdots, N$ ， $x_i$ 是第 $i$ 個特徵向量，也稱爲實例， $y_i$ 爲 $x_i$ 的類別標記
當 $y=+1$ 時，稱 $x_i$ 爲正例；當 $y=-1$ 時，稱 $x_i$ 爲正例
$(x_i,y_i)$ 爲樣本點，假設數據集是線性可分的
分離超平面爲： $w \cdot x+b=0$ ，由法向量 $w$ 和截距 $b$ 決定，由 $(w, b)$ 表示；將特徵空間分爲兩部分：正類和負類

函數間隔和幾何間隔：

函數間隔：
- 給定數據集 $T$ 和超平面 $(w, b)$ ，超平面 $(w,b)$ 和樣本點 $(x_i,y_i)$ 的函數間隔爲： $\hat{\gamma}_{i}=y_{i}\left(w \cdot x_{i}+b\right)$
- 函數間隔可以表示分類預測的正確性及確信度
- 定義超平面 $(w,b)$ 關於訓練數據集 $T$ 的函數間隔爲超平面 $(w,b)$ 關於 $T$ 中所有樣本點 $(x_i,y_i)$ 的函數間隔之和最小值，即： $\hat \gamma=\displaystyle \min_{i=1,\cdots,N}\hat\gamma_i$
幾何間隔：
- 給定數據集 $T$ 和超平面 $(w, b)$ ，超平面 $(w,b)$ 和樣本點 $(x_i,y_i)$ 的幾何間隔爲： $\gamma_{i}=y_{i}\left(\frac{w}{\|w\|} \cdot x_{i}+\frac{b}{\|w\|}\right)$
- 幾何間隔對法向量 $w$ 和截距 $b$ 做了規範化處理，同除 $w$ 的 $L_2$ 範數，是樣本點到超平面帶符號的距離
- 定義超平面 $(w,b)$ 關於訓練數據集 $T$ 的函數間隔爲超平面 $(w,b)$ 關於 $T$ 中所有樣本點 $(x_i,y_i)$ 的幾何間隔之和最小值，即： $\gamma=\displaystyle \min_{i=1,\cdots,N}\gamma_i$
函數間隔和幾何間隔的關係： $\gamma_{i}=\frac{\hat{\gamma}_{i}}{\|w\|}$ ， $\gamma=\frac{\hat{\gamma}}{\|w\|}$

間隔最大化：

支持向量機學習：正確分類訓練數據集+找到幾何間隔最大的分離超平面（以獲得比較好的泛化能力），這個超平面是唯一的
求函數間隔最大化的超平面：
$\begin{array}{ll}{\displaystyle\max _{w, b}} & {\gamma} \\ {\text { s.t. }} & {y_{i}\left(\frac{w}{\|w\|} \cdot x_{i}+\frac{b}{\|w\|}\right) \geqslant \gamma, \quad i=1,2, \cdots, N}\end{array}$
求幾何間隔最大化的超平面：
$\begin{array}{cl}{\displaystyle\max _{w, b}} & {\frac{\hat{\gamma}}{\|w\|}} \\ {\text { s.t. }} & {y_{i}\left(w \cdot x_{i}+b\right) \geqslant \hat{\gamma}, \quad i=1,2, \cdots, N}\end{array}$
該優化問題與幾何間隔 $\hat{\gamma}$ 的取值無關，故等價優化問題爲：
$\color{red} \begin{array}{ll}{\displaystyle\min _{w, b}} & {\frac{1}{2}\|w\|^{2}} \\ {\text { s.t. }} & {y_{i}\left(w \cdot x_{i}+b\right)-1 \geqslant 0, \quad i=1,2, \cdots, N}\end{array}$
這是一個凸二次規劃問題，這個式子是SVM的原始最優化問題
求得最優解： $w^{*}, b^{*}$ ，得分離超平面： $w^{*} \cdot x+b^{*}=0$ ，得分類超平面： $f(x)=\operatorname{sign}\left(w^{*} \cdot x+b^{*}\right)$
最大間隔分離超平面的存在唯一性可證明

支持向量和間隔邊界：

支持向量對應於： $y_i(w\cdot x_i+b)-1 = 0$
對應於兩個超平面：

對應 $y_i=+1$ 的正例點，支持向量在超平面： $H_{1}: w \cdot x+b=1$

對應 $y_i=-1$ 的負例點，支持向量在超平面： $H_{2}: w \cdot x+b=-1$ ；
在 $H_1,H_2$ 上的點稱爲支持向量，分離超平面位於 $H_1,H_2$ 中央， $H_1,H_2$ 稱爲間隔邊界
$H_1,H_2$ 之間的距離稱爲間隔，等於： $\frac{2}{\|w\|}$
在確定分離超平面時只有支持向量起着決定作用，所以將這種分類模型稱爲支持向量機

例 $7.1$ 的解法， $Python$ 程序實現爲：

from scipy import optimize
import numpy as np

fun = lambda x: ((x[0]) ** 2 + (x[1]) ** 2)/2
cons = ({'type': 'ineq', 'fun': lambda x: 3 * x[0] + 3 * x[1] + x[2] - 1},
        {'type': 'ineq', 'fun': lambda x: 4 * x[0] + 3 * x[1] + x[2] - 1},
        {'type': 'ineq', 'fun': lambda x: -x[0] - x[1] - x[2] - 1})
res = optimize.minimize(fun, np.ones(3), method='SLSQP', constraints=cons)
res

學習的對偶問題：

對偶問題往往更容易求解；自然引入核函數，進而推廣到非線性分類問題
針對每個不等式約束，定義拉格朗日乘子 $\alpha_i\ge0$ ，定義拉格朗日函數：
$KaTeX parse error: No such environment: align at position 19: …olor{red}\begin{̲a̲l̲i̲g̲n̲}̲ L(w,b,\alpha)&…$
其中 $\alpha=(\alpha_1,\alpha_2,\dots,\alpha_N)^T$ 爲拉格朗日乘子向量
原始問題是極小極大問題，根據拉格朗日對偶性，原始問題的對偶問題是極大極小問題：
$\max\limits_\alpha\min\limits_{w,b}L(w,b,\alpha)$
求 $\displaystyle \min _{w, b} L(w, b, \alpha)$ ：
$\begin{array}{l}{\nabla_{w} L(w, b, \alpha)=w-\displaystyle \sum_{i=1}^{N} \alpha_{i} y_{i} x_{i}=0} \\ {\nabla_{b} L(w, b, \alpha)=\displaystyle \sum_{i=1}^{N} \alpha_{i} y_{i}=0}\end{array}$

得：
$\begin{array}{l}{w=\displaystyle \sum_{i=1}^{N} \alpha_{i} y_{i} x_{i}} \\ {\displaystyle \sum_{i=1}^{N} \alpha_{i} y_{i}=0}\end{array}$
代入 $L(w,b,\alpha)$ 後得：
$\begin{aligned} L(w, b, \alpha) &=\frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j}\left(x_{i} \cdot x_{j}\right)-\sum_{i=1}^{N} \alpha_{i} y_{i}\left(\left(\sum_{j=1}^{N} \alpha_{j} y_{j} x_{j}\right) \cdot x_{i}+b\right)+\sum_{i=1}^{N} \alpha_{i} \\ &=-\frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j}\left(x_{i} \cdot x_{j}\right)+\sum_{i=1}^{N} \alpha_{i} \end{aligned}$

即：
$\min _{w, b} L(w, b, \alpha)=-\frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j}\left(x_{i} \cdot x_{j}\right)+\sum_{i=1}^{N} \alpha_{i}$
求 $\displaystyle \min _{w, b} L(w, b, \alpha)$ 對 $\alpha$ 的極大，既是對偶問題：
$\begin{array}{cl}{\displaystyle \max _{\alpha}} & {-\frac{1}{2} \displaystyle\sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j}\left(x_{i} \cdot x_{j}\right)+\sum_{i=1}^{N} \alpha_{i}} \\ {\text { s.t. }} & \displaystyle{\sum_{i=1}^{N} \alpha_{i} y_{i}=0} \\ {} & {\alpha_{i} \geqslant 0, \quad i=1,2, \cdots, N}\end{array}$

目標函數轉化爲最小：
$\color{red}\begin{array}{cl}\displaystyle {\min _{\alpha}} & {\frac{1}{2} \displaystyle\sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j}\left(x_{i} \cdot x_{j}\right)-\sum_{i=1}^{N} \alpha_{i}} \\ {\text { s.t. }} & \displaystyle {\sum_{i=1}^{N} \alpha_{i} y_{i}=0} \\ {} & {\alpha_{i} \geqslant 0, \quad i=1,2, \cdots, N}\end{array}$
根據上不等式可求得 $\alpha^{*}=\left(\alpha_{1}^{*}, \alpha_{2}^{*}, \cdots, \alpha_{N}^{*}\right)^{\mathrm{T}}$ ，進一步求得： $w^{*}, b^{*}$
$\color{red}\begin{aligned} w^{*} &=\sum_{i=1}^{N} \alpha_{i}^{*} y_{i} x_{i} \\ b^{*}=& y_{j}-\sum_{i=1}^{N} \alpha_{i}^{*} y_{i}\left(x_{i} \cdot x_{j}\right) \end{aligned}$
分離超平面爲：
$\color{red} \sum_{i=1}^{N} \alpha_{i}^{*} y_{i}\left(x \cdot x_{i}\right)+b^{*}=0$
線性可分支持向量機的對偶形式，分類決策函數：
$\color{red}f(x)=\operatorname{sign}\left(\sum_{i=1}^{N} \alpha_{i}^{*} y_{i}\left(x \cdot x_{i}\right)+b^{*}\right)$

定義：訓練數據集中對應於 $\alpha_{i}^{*}>0$ 的樣本點 $\left(x_{i}, y_{i}\right)$ 的實例點 $x_{i} \in \mathbf{R}^{n}$ 稱爲支持向量

由 $KKT$ 互補條件可知： $\alpha_{i}^{*}\left(y_{i}\left(w^{*} \cdot x_{i}+b^{*}\right)-1\right)=0, \quad i=1,2, \cdots, N$

對於 $\alpha_{i}^{*}>0$ 的樣本點 $\left(x_{i}, y_{i}\right)$ ，有： $y_{i}\left(w^{*} \cdot x_{i}+b^{*}\right)-1=0$

或者： $w^{*} \cdot x_{i}+b^{*}=\pm 1$

即：樣本點 $\left(x_{i}, y_{i}\right)$ 一定在間隔邊界上

三少Algorithm

發佈了85 篇原創文章 · 獲贊 36 · 訪問量 2萬+

私信關注

svm1

支持向量機（ $SVM$ ）

1 導讀部分

2 線性可分支持向量機與硬間隔最大化

svm1

SVM3

ML：隱馬爾科夫模型

Softmax迴歸交叉熵損失函數求導

邏輯迴歸的交叉熵損失函數求導

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

svm1

支持向量機（SVMSVMSVM）

1 導讀部分

2 線性可分支持向量機與硬間隔最大化

支持向量機（ $SVM$ ）