支持向量機（SVM）

@(數據挖掘)[svm]

支持向量機（SVM）

一、線性可分支持向量機和硬間隔最大化

名詞解釋

線性可分：就是指給定一組數據集 $T = {(x_{1}, y_{1}), (x_{2}, y_{2}), \dots, (x_{N}, y_{N})}$ ，其中， $x_{i} \in χ = R^{n}, y_{i} \in γ = {+ 1, - 1}, i = 1, 2, \dots, N$ ，如果存在某個超平面S， $w \cdot x + b = 0$ ，能夠將整個數據集的正實例和負實例完全正確地劃分到超平面的兩側，則稱這個數據集T是線性可分數據集（linearly separable data set）；否則就是線性不可分的。
硬間隔最大化，也就是線性可分支持向量機，在線性可分數據集上利用間隔最大化求最優分離超平面的過程
首先從點到直線的距離發散到高維易知， $| w \cdot x + b |$ 能夠相對的表示點 $x$ 到超平面的距離，而 $w \cdot x + b$ 的符號與類標記 $y$ 的符號是否一致能夠表示分類是否正確，所以：

$\hat{γ_{i}} = y_{i} (w \cdot x + b)$
可以用來表示數據集中每個點分類正確性和到分割超平面距離（也可以稱爲分類置信度大小），也叫超平面 $(w, b)$ 關於樣本點 $(x_{i}, y_{i})$ 的函數間隔。
我們可以進一步定義超平面關於整個數據集T的函數間隔爲數據集T中所有點到超平面函數間隔的最小值：
$\hat{γ} = min_{i = 1, \dots, N} \hat{γ_{i}}$
但是可以發現，我們同時按比例增大 $w$ 和 $b$ ，超平面仍然是 $w \cdot x + b$ 沒有變，但是函數間隔卻同樣按比例變化了，所以我們對分離超平面的法向量 $w$ 加了約束，使得 $‖ w ‖ = 1$ ，也就是間隔值不會改變，這時函數間隔變成了幾何間隔，記做：
$γ_{i} = y_{i} (\frac{w}{‖ w ‖} \cdot x + \frac{b}{‖ w ‖})$
則同理數據集到超平面的幾何距離爲：
$γ = min_{i = 1, \dots, N} γ_{i}$
進一步，我們的線性可分支持向量機就變成了一個約束最優化問題：
$max_{w, b} γ$
$s . t . y_{i} (\frac{w}{‖ w ‖} \cdot x + \frac{b}{‖ w ‖}) ⩾ γ, i = 1, 2, \dots, N$
即是最大化幾何間隔的問題，接着根據函數間隔與幾何間隔的關係，我們易得：
$max_{w, b} \frac{\hat{γ}}{‖ w ‖}$
$s . t . y_{i} (w \cdot x + b) ⩾ \hat{γ}, i = 1, 2, \dots, N$
然後我們可以看到函數間隔 $\hat{γ}$ 的取值並不改變上述最優化問題的解，所以我們可以取 $\hat{γ} = 1$ ，帶入上式，再通過簡單變換，將最大化問題變成最小化問題，得到：
$min_{w, b} \frac{1}{2} {‖ w ‖}^{2}$
$s . t . y_{i} (w \cdot x + b) - 1 ⩾ 0, i = 1, 2, \dots, N$
而上述兩式就是我們最終的線性可分支持向量機學習算法
而滿足條件的最優 $w, b$ 就構成我們的分離超平面：
$w^{*} \cdot x + b^{*} = 0$
分類決策函數爲：
$f (x) = s i g n (w^{*} \cdot x + b^{*})$

二、線性可分支持向量機的對偶算法（應用拉格朗日對偶，簡化原始優化問題爲求解對偶問題）

爲了上述線性可分支持向量機的最優化問題求解更簡單，我們對上述最優化問題應用拉格朗日對偶性，通過求解對偶問題得到原始問題的最優解。也叫線性可分支持向量機的對偶算法。
優點：
- 對偶問題的解通常更容易求得
- 自然引入核函數技巧，進而推廣到非線性分類問題上
證明過程這裏不再說明，主要就是爲每個樣本引入一個拉格朗日乘子 $α_{i}$ ，使得原始問題等價於一個極大極小值問題，然後將其中求極小值部分先用求偏導方法得到 $w, b$ 的極值關於 $α_{i}$ 的表示方法，帶入原式，從而去掉求關於 $w, b$ 的極大值問題，最後變成單純的求關於 $α_{i}$ 的極小值問題。
具體算法如下：
- 下式中的 $α_{i}$ 爲引入的拉格朗日乘子，N爲樣本數
  $min_{α} \frac{1}{2} \sum_{i = 1}^{N} \sum_{j = 1}^{N} α_{i} α_{j} y_{i} y_{j} (x_{i} \cdot x_{j}) - \sum_{i = 1}^{N} α_{i}$
  $s . t . \sum_{i = 1}^{N} α_{i} y_{i} = 0$
  $α_{i} \geq 0, i = 1, 2, \dots, N$
  求得最優解 $α^{*} = (α_{1}^{*}, α_{2}^{*}, \dots, α_{N}^{*})^{T}$ .
- 在計算
  $w^{*} = \sum_{i = 1}^{N} α_{i}^{*} y_{i} x_{i}$
  選擇一個 $α_{j}^{*} > 0$ ，下式中 $x_{j}, y_{j}$ 就是該正乘子對應的樣本特徵向量和標籤
  $b^{*} = y_{j} - \sum_{i = 1}^{N} α_{i}^{*} y_{i} (x_{i} \cdot x_{j})$
- 從而易知超平面爲：
  $w^{*} \cdot x + b^{*} = 0$
  分類決策函數爲：
  $f (x) = s i g n (w^{*} \cdot x + b^{*})$

需要注意的是，從原始問題到對偶問題的關係中，我們容易看出，訓練集中對應 $α_{i}^{*} > 0$ 的樣本點 $(x_{i}, y_{i})$ 爲支持向量

三、線性支持向量機與軟間隔最大化

之前我們提到線性可分支持向量機是針對數據集線性可分的情況下得到的，但是實際情況中大部分的數據集是線性不可分的，這時我們就要修改硬間隔最大化爲軟間隔最大化。
線性不可分，其實說白了就是有些樣本 $(x_{i}, y_{i})$ 不能滿足函數間隔大於等於1的約束條件，所以自然我們想到放鬆約束條件，爲每個樣本引入一個鬆弛變量 $ξ_{i} \geq 0$ ，是的約束條件的函數間隔加上鬆弛變量大於等於1，則約束變成了：

$y_{i} (w \cdot x_{i} + b) \geq 1 - ξ_{i}$
同時，對於鬆弛變量，我們要在原目標函數加入一個懲罰項，則變爲：
$\frac{1}{2} {‖ w ‖}^{2} + C \sum_{i - 1}^{N} ξ_{i}$
這裏， $C > 0$ 成爲懲罰參數，可以看出C越大隊伍分類懲罰越大，C越小對誤分類懲罰變小，上式其實有兩個作用： $\frac{1}{2} {‖ w ‖}^{2}$ 儘量小即間隔儘量大，但同時又要讓誤分類的個數儘量少，這是個trade-off問題，由C控制平衡
所以這時我們的問題線性支持向量機變成如下凸二次規劃問題：

$min_{w, b, ξ} \frac{1}{2} {‖ w ‖}^{2} + C \sum_{i - 1}^{N} ξ_{i}$
$s . t . y_{i} (w \cdot x_{i} + b) \geq 1 - ξ_{i}, i = 1, 2, \dots, N$
$ξ_{i} \geq 0, i = 1, 2, \dots, N$

四、線性支持向量機的對偶算法

證明過程完全類似於線性可分支持向量機的對偶算法，這裏不再贅述。
對偶算法爲：
- 下式中的 $α_{i}$ 爲引入的拉格朗日乘子，N爲樣本數
  $min_{α} \frac{1}{2} \sum_{i = 1}^{N} \sum_{j = 1}^{N} α_{i} α_{j} y_{i} y_{j} (x_{i} \cdot x_{j}) - \sum_{i = 1}^{N} α_{i}$
  $s . t . \sum_{i = 1}^{N} α_{i} y_{i} = 0$
  $0 \leq α_{i} \leq C, i = 1, 2, \dots, N$
  求得最優解 $α^{*} = (α_{1}^{*}, α_{2}^{*}, \dots, α_{N}^{*})^{T}$ .
- 在計算
  $w^{*} = \sum_{i = 1}^{N} α_{i}^{*} y_{i} x_{i}$
  選擇一個 $0 < α_{j}^{*} < C$ ，下式中 $x_{j}, y_{j}$ 就是該乘子對應的樣本特徵向量和標籤
  $b^{*} = y_{j} - \sum_{i = 1}^{N} α_{i}^{*} y_{i} (x_{i} \cdot x_{j})$
- 從而易知超平面爲：
  $w^{*} \cdot x + b^{*} = 0$
  分類決策函數爲：
  $f (x) = s i g n (w^{*} \cdot x + b^{*})$

需要注意的是，由於這裏的b的最優解肯定不止一個，所以往往取所有符合條件的樣本點上的平均b值
這裏的支持向量定義更復雜一點：
- 若 $0 < α_{i}^{*} < C, ξ_{i} = 0$ ，則支持向量剛好在分類間隔邊界上
- 若 $α_{i}^{*} = C, 0 < ξ_{i} < 1$ ，則分類正確，且支持向量在分類邊界與分離超平面之間
- 若 $α_{i}^{*} = C, ξ = 1$ ，則支持向量剛好在分離超平面上
- 若 $α_{i}^{*} = C, ξ > 1$ ，則支持向量在分離超平面誤分類一側

五、線性支持向量機的另外一種合理解釋

合頁損失函數：

我們的線性支持向量機可以看成是最小化一個包含和也損失函數的目標函數：
$\sum_{i = 1}^{N} [1 - y_{i} (w \cdot x_{i} + b)]_{+} + λ {‖ w ‖}^{2}$
$[z]_{+} = {\begin{cases} z & z > 0 \\ 0 & z \leq 0 \end{cases}$
這個損失函數第一項就是一個關於函數間隔的合頁函數，只有當函數間隔 $y (w \cdot x + b)$ 大於1的時候損失爲0，否則就是 $1 - y (w \cdot x + b)$ 。
原始線性支持向量機問題爲：
$min_{w, b, ξ} \frac{1}{2} {‖ w ‖}^{2} + C \sum_{i - 1}^{N} ξ_{i}$
$s . t . y_{i} (w \cdot x_{i} + b) \geq 1 - ξ_{i}, i = 1, 2, \dots, N$
$ξ_{i} \geq 0, i = 1, 2, \dots, N$
而我們很容易證明原始線性支持向量機問題等價於最優化問題
$min_{w, b} \sum_{i = 1}^{N} [1 - y_{i} (w \cdot x_{i} + b)]_{+} + λ {‖ w ‖}^{2}$
證明過程大致是令 $[1 - y_{i} (w \cdot x_{i} + b)]_{+} = ξ_{i}$ ，則易知 $ξ_{i} \geq 0$ ，符合原始約束2，通過分析也易得 $y_{i} (w \cdot x_{i} + b) \geq 1 - ξ_{i}$ ，此時元最優化問題變成：
$min_{w, b} \sum_{i = 1}^{N} ξ_{i} + λ {‖ w ‖}^{2}$
取 $λ = \frac{1}{2 C}$ ，則
$min_{w, b} \frac{1}{C} (\frac{1}{2} {‖ w ‖}^{2} + C \sum_{i = 1}^{N} ξ_{i})$
所以得證與原始線性支持向量機問題等價

六、核技巧

其實核技巧核心思想就是：當前數據集的輸入特徵所在高維空間無法被線性超平面分隔，那麼我們就通過一個非線性變換，把輸入特徵空間轉換到另一個特徵空間，使得我們在原始特徵空間必須用超曲面分離的數據集，在轉換後可以用對應的超平面完美分隔。
而核函數就代表這種非線性變換函數，讓我們非線性可分的數據集通過轉換可以變成線性可分的，從而簡化模型學習，只需要用線性支持向量機就可以對數據進行模型的學習。
常用的核函數有多項式核函數、高斯核函數、字符串核函數

注：本文參考李航的《統計學習方法》

支持向量機數學證明與推導（SVM）

支持向量機（SVM）

一、線性可分支持向量機和硬間隔最大化

二、線性可分支持向量機的對偶算法（應用拉格朗日對偶，簡化原始優化問題爲求解對偶問題）

三、線性支持向量機與軟間隔最大化

四、線性支持向量機的對偶算法

五、線性支持向量機的另外一種合理解釋

六、核技巧

《日本蠟燭圖》讀書筆記 & 技術分析回測

《期貨-市場技術分析》讀書筆記

Python多線程編程深度探索：從入門到實戰

mongodb處理json數據很好

[轉帖]cpupower

35K*14 薪，入職了！這公司只要不裁員，我能一直呆下去！

機器學習各優化算法的簡單總結

mac本機pySpark配置並且能在本地遠程調用服務器Spark以及文件

線性迴歸和邏輯迴歸損失函數推導

csdn如何快速完美的轉載別人的文章

LGBM是如何處理類別特徵，相比onehot編碼的優勢在哪

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結