SVM涉及距離，和KNN一樣，要做數據標準化處理。

看吳恩達SVM，補充筆記https://blog.csdn.net/qq_xuanshuang/article/details/105361122

1-什麼是SVM

Hard Margin SVM：前提，樣本是線性可分的

2-SVM背後的最優化問題

SVM：最大化margin，其中margin=2d，即SVM要最大化d。

回憶解析幾何，點到直線的距離：

(x,y)到Ax+By+C=0的距離， $\frac{|Ax+By+C|}{\sqrt{A^2+B^2}}$

拓展到n維空間， $\theta^Tx_b=0 \Rightarrow w^Tx +b = 0$ ，有 $\frac{w^Tx+b}{||w||}$

經過一系列變化，最優化的目標是（帶約束的最優化問題）

$\begin{aligned} &min(\frac{1}{2}||w||^2) \\ & s.t. \ y^{(i)}(w^Tx^{(i)}+b)\geqslant 1 \end{aligned}$

函數間隔 VS 幾何間隔

線性可分支持向量機利用間隔最大化求解最優分離超平面（解是唯一的）。

一般來說，一個點距離分離超平面的遠近可以表示分類預測的確信程度。在超平面 $w \cdot x+b=0$ 確定的情況下， $|w \cdot x +b|$ 能夠相對地表示點x距離超平面的遠近。而 $w \cdot x+b$ 的符號與類標記y的符號是否一致能夠表示分類是否正確。所以可用 $y(w \cdot x+b)$ 來表示分類的正確性及確信度，這就是函數間隔（functionalmargin）。

定義超平面關於訓練數據集T的函數間隔爲超平面關於T中所有樣本點 $(x^{(i)},y^{(i)})$ 的函數間隔之最小值，函數間隔可以表示分類預測的正確性及確信度。但是選擇分離超平面時，只有函數間隔還不夠。因爲只要成比例地改變w和b,例如將它們改爲2w和2b，超平面並沒有改變，但函數間隔卻成爲原來的2倍。這一事實啓示我們。可以對分離超平面的法向量w加某些約束，如規範化，，使得間隔是確定的。這時函數間隔成爲幾何間隔（geometric margin）。

   $\begin{matrix} \gamma^{(i)}=\left\{\begin{matrix} \frac{w}{||w||} \cdot x^{(i)} + \frac{b}{||w||} & if \ y^{(i)}=+1\\ -(\frac{w}{||w||} \cdot x^{(i)} + \frac{b}{||w||}) & if \ y^{(i)}=-1 \end{matrix}\right| \end{matrix} \Rightarrow \gamma^{(i)}=y^{(i)}(\frac{w}{||w||} \cdot x^{(i)} + \frac{b}{||w||})$

定義超平面關於訓練數據集T的幾何間隔爲超平面關於T中所有樣本點 $(x^{(i)},y^{(i)})$ 的幾何間隔之最小值，即

   $\gamma = \min_{i=1,\cdots, m} \gamma^{(i)}$

求一個幾何間隔最大的分離超平面，即最大間隔分離超平面。具體地，這個問題可以表示爲下面的約束最優化問題：

$\max_{w,b} \gamma \\ s.t. \ y^{(i)}(\frac{w}{||w||}\cdot x^{(i)}+\frac{b}{||w||})\geqslant \gamma, \ i=1,2,\cdots, m$

即我們希望最大化超平面關於訓練數據集的幾何間隔 $\gamma$ ，約束條件表示的超平面關於每個訓練樣本點的幾何間隔至少是 $\gamma$ 。考慮幾何間隔和函數間隔的關係式，可將這個問題改寫爲：

   $\max_{w,b} \frac{\hat{\gamma}}{||w||} \\ s.t. \ y^{(i)}(w\cdot x^{(i)}+b)\geqslant \hat{ \gamma}, \ i=1,2,\cdots, m$

函數間隔 $\hat{\gamma}$ 的取值並不影響最優化問題的解。事實上，假設將w和b按比例改變爲 $\lambda w$ 和 $\lambda b$ ，這時函數間隔成爲 $\lambda \hat{\gamma}$ 。函數間隔的這一改變對上面最優化問題的不等式約束沒有影響，對目標函數的優化也沒有影響，也就是說，它產生一個等價的最優化問題。這樣，就可以取 $\hat{\gamma} = 1$ 。將 $\hat{\gamma} = 1$ 代入上面的最優化問題，注意到最大化和最小化是等價的，於是就得到下面的線性可分支持向量機的最優化問題:

$\min_{w,b}(\frac{1}{2}||w||^2) \\ s.t. \ y^{(i)}(w^Tx^{(i)}+b)\geqslant 1, i= 1, 2, \cdots ,m$

支持向量和間隔邊界

在線性可分情況下，訓練數據集的樣本點中與分離超平面距離最近的樣本點的實例成爲支持向量。支持向量使約束條件式等號成立的點，即

                                   $y^{(i)}(w^Tx^{(i)}+b)= 1$

對 $y^{(i)}=+1$ 的正例點，支持向量在超平面

$H1: w \cdot x+b=1$

上，對 $y^{(i)}=-1$ 的負例點，支持向量在超平面

                                    $H2: w \cdot x+b=-1$

上，如下圖：在H1和H2上的點就是支持向量


注意到H1和H2平行，並且沒有實例點落在它們中間。在H1與H2之間形成一條長帶，分離超平面與它們平行且位於它們中央。長帶的寬度，即H1與H2之間的距離成爲間隔。間隔依賴於分離超平面的法向量w,等於，H1和H2稱爲間隔邊界。
在決定分離超平面時只有支持向量起作用，而其他實例點並不起作用。如果移動支持向量將改變所求的解；但是如果在間隔邊界以外移動其他實例點，甚至去掉這些點，則解是不會改變的。由於支持向量在確定分離超平面中起着決定性作用，所以將這種分類模型成爲支持向量機。支持向量的個數一般很少，所以支持向量機由很少的“重要的”訓練樣本確定。

學習的對偶算法

帶約束的最優化問題可用拉格朗日算子求解。

$L(w,b,\alpha) = \frac{1}{2}||w||^2 - \sum_{i=1}^m\alpha^{(i)}y^{(i)}(w\cdot x^{(i)} +b - 1) \ \ \ \ \ \ (1)$

其中， $\alpha^{(i)} \geqslant 0, i=1, 2, \cdots, m$ ， $\alpha = (\alpha^{(1)}, \alpha^{(2)},\cdots, \alpha^{(m)})^T$ 爲拉格朗日乘子向量。

根據拉格朗日對偶性，原始問題的對偶問題是極大極小問題：

$\max_\alpha \min_{w,b}L(w,b,\alpha) \ \ \ \ \ \ (2)$

所以，爲了得到對偶問題的解，需要先求 $L(w,b,\alpha)$ 對w,b極小，再求對 $\alpha$ 的極大。

（1）    求 $min_{w,b}L(w,b,\alpha)$ 分別對w,b求偏導數並令其等於0。

   $\begin{aligned} \left.\begin{matrix} \triangledown_w L(w,b,\alpha) &=w-\sum_{i=1}^m \alpha^{(i)}y^{(i)}x^{(i)}=0 \\ \triangledown_b L(w,b,\alpha) &=\sum_{i=1}^m \alpha^{(i)}y^{(i)}}=0 \end{matrix}\right| \end{aligned} \Rightarrow \begin{aligned} \left.\begin{matrix} w =-\sum_{i=1}^m \alpha^{(i)}y^{(i)}x^{(i)} \\ \sum_{i=1}^m \alpha^{(i)}y^{(i)}}=0 \end{matrix}\right| \end{aligned} \ \ \ \ \ \ (3)$

將（3）帶入（1）有

    $\begin{aligned} L(w, b, \alpha)&=\frac{1}{2}\sum_{i=1}^m \sum_{j=1}^m \alpha^{(i)}\alpha^{(j)}y^{(i)}y^{(j)}(x^{(i)} \cdot x^{(j)}) \\ &-\sum_{i=1}^m \alpha^{(i)}y^{(i)}((\sum_{j=1}^m\alpha^{(j)}y^{(j)}x^{(j)})\cdot x^{(j)} + b) + \sum_{i=1}^m\alpha^{(i)} \\ &=-\frac{1}{2}\sum_{i=1}^m \sum_{j=1}^m \alpha^{(i)}\alpha^{(j)}y^{(i)}y^{(j)}(x^{(i)} \cdot x^{(j)}) +\sum_{i=1}^m\alpha^{(i)} \end{aligned}$

即

   $\min_{w,b}L(w,b,\alpha)=-\frac{1}{2}\sum_{i=1}^m \sum_{j=1}^m \alpha^{(i)}\alpha^{(j)}y^{(i)}y^{(j)}(x^{(i)} \cdot x^{(j)})+\sum_{i=1}^m\alpha^{(i)}$

（2）求 $min_{w,b}L(w,b,\alpha)$ 對 $\alpha$ 的極大，即是對偶問題。

$\begin{aligned} &\max_\alpha -\frac{1}{2}\sum_{i=1}^m \sum_{j=1}^m \alpha^{(i)}\alpha^{(j)}y^{(i)}y^{(j)}(x^{(i)} \cdot x^{(j)})+\sum_{i=1}^m\alpha^{(i)} \\ &s.t. \ \ \sum_{i=1}^m\alpha^{(i)}y^{(i)}=0 \\ & \ \ \ \ \ \ \alpha^{(i)} \geqslant 0, \ \ \ \ i=1,2,\cdots,m \end{aligned}$

將上面的目標函數由求極大轉換成求極小，則得下面與之等價的對偶最優化問題。

$\begin{aligned} &\min_\alpha \frac{1}{2}\sum_{i=1}^m \sum_{j=1}^m \alpha^{(i)}\alpha^{(j)}y^{(i)}y^{(j)}(x^{(i)} \cdot x^{(j)})-\sum_{i=1}^m\alpha^{(i)} \\ &s.t. \ \ \sum_{i=1}^m\alpha^{(i)}y^{(i)}=0 \\ & \ \ \ \ \ \ \alpha^{(i)} \geqslant 0, \ \ \ \ i=1,2,\cdots,m \end{aligned}$

解出 $\alpha$ 後，求出和即可得到模型：

$f(x)=w^Tx+b=-\sum_{i=1}^m\alpha^{(i)}y^{(i)}x^{(i)}^Tx+b \ \ \ \ \ \ \ \ (4)$

注意到是不等式約束，因此上述過程需滿足KKT條件，即

$\left\{\begin{matrix} \alpha^{(i)} \geqslant 0\\ y^{(i)}f(x^{(i)})-1 \geqslant 0\\ \alpha^{(i)}(y^{(i)}f(x^{(i)})-1)=0 \end{matrix}\right.$

注：KKT條件主要包含三大部分：
①：拉格朗日乘子≥0
②：原問題的約束條件
③：拉格朗日函數中的拉格朗日乘子項=0

從KKT條件可以看出，對於任意訓練樣本 $(x^{(i)},y^{(i)})$ ，總有 $\alpha^{(i)}$ 或 $y^{(i)}f(x^{(i)})=1$ 。若 $\alpha^{(i)}=0$ ，則該樣本將不會出現在式（4）的求和項中，即不會對f(x)有任何影響；若 $\alpha^{(i)}>0$ ，則必有 $y^{(i)}f(x^{(i)})=1$ ，即該樣本位於最大間隔邊界上，是一個支持向量。這顯示出支持向量機一個重要結論：訓練完成後，大部分的訓練樣本都不需要保留，最終模型僅與支持向量有關。

3-Soft Margin SVM 和SVM的正則化

下面兩幅圖，均是Hard Margin SVM，第一個可能泛化不好，第二個線性不可分，Hard Margin SVM無法得到結果，無法應用。

Soft Margin SVM

其思想，允許模型犯一定的錯誤，Hard不允許有樣本存在在這兩條線之間，soft可以。其中 $\pounds _i$ 不是一個固定的值，而是每個樣本都有自己的 $\pounds$ ，例我們有m個樣本，則 $\pounds$ 也有m個數值，即每一個數據點都可以有一個容錯空間。

經過一系列變化，最優化的目標是（帶約束的最優化問題）

$\begin{aligned} \left.\begin{matrix} &\min(\frac{1}{2}||w||^2 + C \sum_{i=1}^m\pounds^{(i)} ) \\ &s.t. \ y^{(i)}(w^Tx^{(i)}+b)\geqslant 1 - \pounds^{(i)}, i=1,2,\cdots,m \\ &\pounds^{(i)} \geqslant 0, i=1,2,\cdots,m \\ &L1 \end{matrix}\right| \left.\begin{matrix} \min(\frac{1}{2}||w||^2 + C \sum_{i=1}^m\pounds^{(i)^2} ) \\ s.t. \ y^{(i)}(w^Tx^{(i)}+b)\geqslant 1 - \pounds^{(i)}, i=1,2,\cdots,m \\ \pounds^{(i)} \geqslant 0, i=1,2,\cdots,m \\ L2 \end{matrix}\right| \end{aligned}$

學習的對偶算法

帶約束的最優化問題可用拉格朗日算子求解。

$\begin{aligned} L(w,b,\xi ,\alpha,\mu ) = \frac{1}{2}||w||^2 +C\sum_{i=1}^m\xi^{(i)}- \sum_{i=1}^m\alpha^{(i)}y^{(i)}(w\cdot x^{(i)} +b - (1-\xi^{(i)})) -\sum_{i=1}^m\mu^{(i)}\xi^{(i)} \ \ \ \ \ \ (1) \end{aligned}$

其中， $\alpha^{(i)} \geqslant 0 , \mu^{(i)} \geqslant 0$ 。

根據拉格朗日對偶性，原始問題的對偶問題是極大極小問題：

$\max_{\alpha,\mu} \min_{w,b,\xi}L(w,b,\xi ,\alpha,\mu ) \ \ \ \ \ \ (2)$

所以，爲了得到對偶問題的解，需要先求 $L(w,b,\xi ,\alpha,\mu )$ 對 $w,b,\xi$ 極小，再求對 $\alpha,\mu$ 的極大。

（1）    求 $min_{w,b,\xi}L(w,b,\xi ,\alpha,\mu )$ 分別對 $w,b,\xi$ 求偏導數並令其等於0。

   $\begin{aligned} \left.\begin{matrix} \triangledown_w L(w,b,\xi,\alpha,\mu) &=w-\sum_{i=1}^m \alpha^{(i)}y^{(i)}x^{(i)}=0 \\ \triangledown_b L(w,b,\xi,\alpha,\mu) &=\sum_{i=1}^m \alpha^{(i)}y^{(i)}}=0 \\ \triangledown_{\xi^{(i)}} L(w,b,\xi,\alpha,\mu) &=C-\alpha^{(i)}-\mu^{(i)}=0 \end{matrix}\right| \end{aligned} \Rightarrow \begin{aligned} \left.\begin{matrix} w =-\sum_{i=1}^m \alpha^{(i)}y^{(i)}x^{(i)} \\ \sum_{i=1}^m \alpha^{(i)}y^{(i)}}=0 \\ C - \alpha^{(i)} -\mu^{(i)}=0 \end{matrix}\right| \end{aligned} \ \ \ \ \ \ (3)$

將（3）帶入（1）有

    $\begin{aligned} L(w, b,\xi, \alpha,\mu)&=\frac{1}{2}\sum_{i=1}^m \sum_{j=1}^m \alpha^{(i)}\alpha^{(j)}y^{(i)}y^{(j)}(x^{(i)} \cdot x^{(j)}) + C\sum_{i=1}^m\xi^{(i)}\\ &-\sum_{i=1}^m \alpha^{(i)}y^{(i)}((\sum_{j=1}^m\alpha^{(j)}y^{(j)}x^{(j)})\cdot x^{(j)} + b+\xi^{(i)}) + \sum_{i=1}^m\alpha^{(i)} - \sum_{i=1}^m\mu^{(i)}\xi^{(i)} \\ &=-\frac{1}{2}\sum_{i=1}^m \sum_{j=1}^m \alpha^{(i)}\alpha^{(j)}y^{(i)}y^{(j)}(x^{(i)} \cdot x^{(j)}) +\sum_{i=1}^m\alpha^{(i)} \end{aligned}$

即

   $\min_{w,b,\xi} L(w, b,\xi, \alpha,\mu)=-\frac{1}{2}\sum_{i=1}^m \sum_{j=1}^m \alpha^{(i)}\alpha^{(j)}y^{(i)}y^{(j)}(x^{(i)} \cdot x^{(j)})+\sum_{i=1}^m\alpha^{(i)}$

（2）求 $min_{w,b,\xi} L(w, b,\xi, \alpha,\mu)$ 對 $\alpha$ 的極大，即是對偶問題。

$\begin{aligned} &\max_\alpha -\frac{1}{2}\sum_{i=1}^m \sum_{j=1}^m \alpha^{(i)}\alpha^{(j)}y^{(i)}y^{(j)}(x^{(i)} \cdot x^{(j)})+\sum_{i=1}^m\alpha^{(i)} \\ &s.t. \ \ \sum_{i=1}^m\alpha^{(i)}y^{(i)}=0 \\ & \ \ \ \ \ \ C-\alpha^{(i)}-\mu^{(i)}=0 \\ & \ \ \ \ \ \ \alpha^{(i)} \geqslant 0\\ & \ \ \ \ \ \ \mu^{(i)} \geqslant 0, \ \ \ \ i=1,2,\cdots,m \end{aligned}$

將上面的目標函數由求極大轉換成求極小，則得下面與之等價的對偶最優化問題，並消去 $\mu^{(i)}$

$\begin{aligned} &\min_\alpha \frac{1}{2}\sum_{i=1}^m \sum_{j=1}^m \alpha^{(i)}\alpha^{(j)}y^{(i)}y^{(j)}(x^{(i)} \cdot x^{(j)})-\sum_{i=1}^m\alpha^{(i)} \\ &s.t. \ \ \sum_{i=1}^m\alpha^{(i)}y^{(i)}=0 \\ & \ \ \ \ \ \ 0 \leqslant \alpha^{(i)} \leqslant C, \ \ \ \ i=1,2,\cdots,m \end{aligned}$

注意到是不等式約束，因此上述過程需滿足KKT條件，即

                                      $\left\{\begin{matrix} \alpha^{(i)} \geqslant 0,\ \mu^{(i)} \geqslant 0 \\ y^{(i)}f(x^{(i)})-1+ \xi^{(i)} \geqslant 0,\ \xi^{(i)} \geqslant 0\\ \alpha^{(i)}(y^{(i)}f(x^{(i)})-1)=0,\ \mu^{(i)}\xi^{(i)}=0 \end{matrix}\right.$

注：KKT條件主要包含三大部分：
①：拉格朗日乘子≥0
②：原問題的約束條件
③：拉格朗日函數中的拉格朗日乘子項=0

從KKT條件可以看出，對於任意訓練樣本，總有 $\alpha^{(i)}$ 或 $y^{(i)}f(x^{(i)})=1-\xi^{(i)}$ 。若 $\alpha^{(i)}=0$ ，則該樣本將不會出現在式（4）的求和項中，即不會對f(x)有任何影響；若 $\alpha^{(i)} > 0$ ，則必有 $y^{(i)}f(x^{(i)})=1-\xi^{(i)}$ ，即該樣本是一個支持向量，因爲 $C-\alpha^{(i)}-\mu^{(i)}=0$ ，若 $\alpha^{(i)}<C$ ，則 $\mu^{(i)}>0$ ，進而有 $\xi^{(i)}=0$ ，即該樣本恰好位於最大間隔邊界上；若 $\alpha^{(i)}=C$ ，則 $\mu^{(i)}=0$ ，此時若 $\xi^{(i)} \leqslant 1$ ，則該樣本在最大間隔邊界內部，若 $\xi^{(i)} > 1$ ，則該樣本被錯誤分類。這顯示出支持向量機一個重要結論：訓練完成後，大部分的訓練樣本都不需要保留，最終模型僅與支持向量有關。

4-核函數

之前的優化目標可以利用一系列數學手段轉換成如下的式子，可以看出有樣本之間的點積 $(x^{(i)}\cdot x^{(j)})$ ，按之前的特徵工程，若想要多項式特徵，可先將樣本的特徵轉變爲多項式特徵，然後再點積 $(x^{'(i)}\cdot x^{'(j)})$ 。

核函數的想法是，不用對樣本的特徵進行轉變，而是直接找到一個函數，該函數對原樣本的結果與先對原樣本特徵進行處理再點積的結果一致。

舉個🌰，例如我們想要二階特徵，即我們想要特徵 $(x_n^2,\cdots,x_1^2,\sqrt2x_nx_{n-1},\cdots,\sqrt2x_n,\cdots,\sqrt2x_1,\cdots,1)$ ，只需要這樣的核函數 $K(x,y)=(x\cdot y+1)$

多項式核函數： $K(x,y)=(x\cdot y+c)^d$

線性核函數： $K(x,y)=x\cdot y$ ，即對樣本特徵不進行任何處理，即使用原特徵。

5-高斯核函數(RBF核）

核函數K(x,y)就是重新定義x和y的點積。

高斯核函數： $K(x,y)=e^{-\gamma||x-y||^2 }$ ，高斯函數 $g(x)=\frac{1}{\sigma \sqrt{2 \pi}}e^{-\frac{1}{2}(\frac{x-\mu}{\sigma})^2}$ ，高斯核函數與高斯函數形似。

高斯核函數的本質是將一個樣本點映射到一個無窮維的特徵空間。高斯覈對每一個數據點都是landmark，把m*n的數據映射成了m*m的數據。

高斯核：👇舉個🌰直觀理解一下，原先是，我們這邊固定一下y，即y不取樣本點而取固定點，這邊固定點是，這兩個特殊點通常稱爲landmark（地標點）。若有兩個地標，高斯核函數就將其升爲二維樣本點，其取值如👇中間的圖。高斯覈對每一個數據點都是landmark，把m*n的數據映射成了m*m的數據。

6-RBF核函數中的gamma

高斯核函數與高斯函數形似，他們之間參數也有點關係。高斯函數中 $\mu$ 代表均值， $\sigma$ 代表標準差，其中 $\sigma$ 越大，方差越大，函數分佈越寬；其中 $\sigma$ 越小，方差越小，函數分佈越窄；然後高斯函數中的 $\frac{1}{2\sigma^2}$ 相當於高斯核函數中的 $\gamma$ ，故 $\gamma$ 越大，方差越小，函數分佈越窄；其中 $\gamma$ 越小，方差越大，函數分佈越寬。

$\gamma$ 可用來調節模型複雜度， $\gamma$ 越大，模型越複雜( $\gamma$ 越大，分佈越窄，與該樣本x相鄰的樣本y影響更大，在該樣本x的附近形成小鐘形)， $\gamma$ 越小，模型越簡單( $\gamma$ 越小，分佈越寬，與該樣本x相鄰的樣本y影響相對偏小，考慮了附近更多的樣本y，在該樣本x的附近形成鐘形較大)。