SVM支持向量機及SMO算法總結

之所以寫這篇文章，主要是因爲SVM和SMO的算法看了很多遍纔看懂，現在網絡上也有很多相關的資料，這篇文章主要是記錄自己的學習過程，集中在後面的證明求解過程。初學者建議先看底下的參考資料，把相關概念弄清楚了之後，如果在看論文過程中有疑惑的，可以過來看沒看有沒有參考的地方。

首先對於SVM（support vector machine）的理解爲：尋找一個超分類平面，把不同分類的數據分隔開，且兩邊的最小間距最大。

函數間距與幾何間距：

在Andrew Ng的材料中，涉及到兩個間距的概念：函數間距與幾何間距。

函數間距的定義： ${\hat{γ}}^{(i)} = y^{(i)} (w^{T} x + b)$ , 當 $w$ 和 $b$ 成比例變化，函數間距也成比例變化

幾何間距的定義： $γ^{(i)} = \frac{y^{(i)} (w^{T} x + b)}{| | w | |}$ , 當 $w$ 和 $b$ 成比例變化，幾何間距不變

最大化間距

SVM目標是最大化最小几何間距，故有：

最小几何間距： $γ = min_{i = 1, . ., m} γ^{(i)}$

$max_{γ, w, b} γ$

$s . t . y^{(i)} (w^{T} x + b) \geq γ, i = 1, . . ., m$

$| | w | | = 1$

第一個限制條件保證所有例子的函數間距大於我們的最小几何間距 $γ$ ， $| | w | | = 1$ 保證了函數間距和幾何間距等價。

由於該式子比較難求解，故我們可以考慮轉換一下上式爲：

$max_{γ, w, b} \frac{\hat{γ}}{| | w | |}$

$s . t . y^{(i)} (w^{T} x + b) \geq \hat{γ}, i = 1, . . ., m$

考慮到函數間距與 $w$ 和 $b$ 成比例變化，故成比例變化 $w$ 和 $b$ 不影響該最大式子，故可以考慮令 $\hat{γ} = 1$

原式可變爲：

$max_{w, b} \frac{1}{| | w | |}$

$s . t . y^{(i)} (w^{T} x + b) \geq 1, i = 1, . . ., m$

最後該式子等價爲：

$min_{w, b} \frac{1}{2} | | w | |^{2}$

$s . t . y^{(i)} (w^{T} x + b) \geq 1, i = 1, . . ., m$

拉格朗日對偶

上面已經列出了我們需要求解 $w$ 和 $b$ 的式子，但是由於涉及到限制條件，很難直接求解。這時候就需要我們的朗格朗日乘子和朗格朗日對偶問題的知識了。

對於一般式子：

$m i n_{w} f (w)$

$s . t . g_{i} (w) \leq 0, i = 1, . . ., k$

$h_{i} (w) = 0, i = 1, . . ., k$

令 $L (w, α, β) = f (w) + \sum_{i = 1}^{k} α_{i} g_{i} (w) + \sum_{i = 1}^{l} β_{i} h_{i} (w)$ , 該式子稱爲拉格朗日函數

在滿足原式子的限制條件下有： $max_{α, β : α \geq 0} L (w, α, β) = f (w)$

又有以下對偶式子：

$max_{α, β : α \geq 0} min_{w} L (w, α, β) \leq min_{w} max_{α, β : α \geq 0} L (w, α, β) = min_{w} f (w)$

當滿足一定條件下時，我們有該等式成立。該條件稱爲KKT:

$\frac{\partial}{\partial w_{i}} L (w, α, β) = 0, i = 1, . . ., n$

$\frac{\partial}{\partial β_{i}} L (w, α, β) = 0, i = 1, . . ., l$

$α_{i} g_{i} (w) = 0, i = 1, . . . k$

$g_{i} (w) \leq 0, i = 1, . . . k$

$α_{i} \geq 0, i = 1, . . . k$

在滿足以上KKT條件下，原來求 $f (w)$ 在限制條件下的最小值就可以等價轉換爲求 $max_{α, β : α \geq 0} min_{w} L (w, α, β)$

應用拉格朗日求解最小間隙最大值

構造朗格朗日函數：

$L (w, b, α) = \frac{1}{2} | | w | |^{2} + \sum_{i = 1}^{m} α_{i} (1 - y^{(i)} (w^{T} x^{(i)} + b))$

根據KKT條件有：

$\frac{\partial}{\partial w} L = 0$

$\frac{\partial}{\partial b} L = 0$

得到以下結果：

$w = \sum_{i = 1}^{m} α_{i} y^{(i)} x^{(i)}$

$\sum_{i = 1}^{m} α_{i} y^{(i)} = 0$

以上結果回代入拉格朗日函數得到：

$L (w, b, α) = \sum_{i = 1}^{m} α_{i} - \frac{1}{2} \sum_{i, j = 1}^{m} y^{(i)} y^{(j)} α_{i} α_{j} (x^{(i)})^{T} x^{(j)}$

故原式子可等價爲：

$max_{α} W (α) = \sum_{i = 1}^{m} α_{i} - \frac{1}{2} \sum_{i, j = 1}^{m} y^{(i)} y^{(j)} α_{i} α_{j} < (x^{(i)}), x^{(j)} >$

$s . t . α_{i} \geq 0, i = 1, . . . m$

$\sum_{i = 1}^{m} α_{i} y^{(i)} = 0$

$< (x^{(i)}), x^{(j)} >$ 表示兩個向量的內積. 實際上，可以用核函數來表示兩個向量的相似度，這樣，我們的SVM模型就可以應用在一些非線性可分的問題上。

正則化及不可分情形討論

實際上的問題經常是，我們無法找到一個線性可分的超分類平面，這樣，我們之前的限制條件是無法被滿足的。那麼前面做的這麼多工作都只能應用於可分的情況嗎？

之前我們的限制條件是非常嚴格的 $y^{(i)} (w^{T} x + b) \geq 1$ , 但是我們可以考慮加入一些鬆弛變量 $ζ$ 來打破這種情況，同時對於這種情況要加一些懲罰條件，故原先的式子可改寫成：

$min_{w, b} \frac{1}{2} | | w | |^{2} + C \sum_{i = 1}^{m} ζ_{i}$

$s . t . y^{(i)} (w^{T} x + b) \geq 1 - ζ_{i}, i = 1, . . ., m$

$ζ_{i} \geq 0, i = 1, . . ., m$

還是構造拉格朗日函數:

$L (w, b, α) = \frac{1}{2} | | w | |^{2} + C \sum_{i = 1}^{m} ζ_{i} + \sum_{i = 1}^{m} α_{i} (1 - ζ_{i} - y^{(i)} (w^{T} x^{(i)} + b)) + \sum_{i = 1}^{m} r_{i} (- ζ_{i})$

$w$ , $b$ , $ζ$ 分別對 $L$ 偏導可以得到：

$w = \sum_{i = 1}^{m} α_{i} y^{(i)} x^{(i)}$

$b = - \sum_{i = 1}^{m} α_{i} y^{(i)} = 0$

$C - α_{i} - r_{i} = 0, i = 1, . ., m$

由於 $r_{i} \geq 0$ , $α_{i} \geq 0$

故由 $C - α_{i} - r_{i} = 0, i = 1, . ., m$ 可得 $0 \leq α_{i} \leq C, i = 1, . . ., m$

把 $w$ , $b$ 回代回去，原式子可以等價爲:

$max_{α} W (α) = \sum_{i = 1}^{m} α_{i} - \frac{1}{2} \sum_{i, j = 1}^{m} y^{(i)} y^{(j)} α_{i} α_{j} < (x^{(i)}), x^{(j)} >$

$s . t . 0 \leq α_{i} \leq C, i = 1, . . . m$

$\sum_{i = 1}^{m} α_{i} y^{(i)} = 0$

且再次檢查KKT條件，有：

$α_{i} (1 - ζ_{i} - y^{(i)} (w^{T} x^{(i)} + b)) = 0$

$1 - ζ_{i} - y^{(i)} (w^{T} x^{(i)} + b) \leq 0$

$r_{i} (- ζ_{i}) = 0$

$- ζ_{i} \leq 0$

$ζ_{i} \geq 0$

$α_{i} \geq 0$

對 $α_{i}$ 進行討論(由KKT條件)有：

$α_{i} = 0 \Rightarrow y^{(i)} (w^{T} x^{(i)} + b) \geq 1$

$α_{i} = C \Rightarrow y^{(i)} (w^{T} x^{(i)} + b) \leq 1$

$0 \leq α_{i} \leq C \Rightarrow y^{(i)} (w^{T} x^{(i)} + b) = 1$

SMO優化

前面已經做了很多工作，現在目標函數已經有了. 接下來就是需要 $α$ 使得我們的目標函數取到最大值。參考資料中的SMO論文求目標函數的最小值:

$min_{α} Ψ (α) = min_{α} \frac{1}{2} \sum_{i, j = 1}^{m} y^{(i)} y^{(j)} α_{i} α_{j} K (x^{(i)}, x^{(j)}) - \sum_{i = 1}^{m} α_{i}$

$s . t . 0 \leq α_{i} \leq C, i = 1, . . . m$

$\sum_{i = 1}^{m} α_{i} y^{(i)} = 0$

取出一對 $α_{1}, α_{2}$ 我們有 $α_{1} y^{(1)} + α_{2} y^{(2)} = k = - \sum_{i = 3}^{m} α_{i} y^{(i)}$ 故有如下圖關係

分兩種情況討論： $y_{1}, y_{2}$ 不同號以及 $y_{1}, y_{2}$ 同號

其中對應的 $α_{2}$ 的邊界爲：

同號情況： $L = m a x (0, α_{2} - α_{1}), H = m i n (C, C + α_{2} - α_{1})$
異號： $L = m a x (0, α_{2} + α_{1} - C), H = m i n (C, α_{2} + α_{1})$

化簡目標函數，把 $α_{1}, α_{2}$ 提取出來：

令 $s = y_{1} y_{2}, K_{i j} = K (x_{i}, x_{j})$

$Ψ (α) = \frac{1}{2} α_{1}^{2} K_{11} + \frac{1}{2} α_{2}^{2} K_{22} + s α_{1} α_{2} K_{12} - α_{1} - α_{2} + y_{1} α_{1} v_{1} + y_{2} α_{2} v_{2} + Ψ_{c o n s t}$

其中有：

$v_{i} = \sum_{j = 3}^{m} α_{j}^{*} y_{j} K_{i j} = u_{i} + b^{*} - y_{1} α_{1}^{*} K_{1 i} - y_{2} α_{2}^{*} K_{2 i}$ ( $α_{1}^{*}$ 表示舊的值)

則有 $α_{1} + s α_{2} = - y_{1} \sum_{i = 3}^{m} α_{i} y_{i} = α_{1}^{*} + s α_{2}^{*} = t$

把 $α_{1} = t - s α_{2}$ 代入目標函數有：

$Ψ (α) = \frac{1}{2} (t - s α_{2})^{2} K_{11} + \frac{1}{2} α_{2}^{2} K_{22} + s (t - s α_{2}) α_{2} K_{12} - (t - α_{2}) - α_{2} + y_{1} (t - s α_{2}) v_{1} + y_{2} α_{2} v_{2} + Ψ_{c o n s t}$

目標函數對 $α_{2}$ 求導並令其爲0：

$\frac{\partial}{\partial α_{2}} Ψ (α) = α_{2} (K_{11} + K_{22} - 2 K_{12}) - s t (K_{11} - K 12) - y_{2} (v_{1} - v_{2}) + s - 1 = 0$

把 $t = α_{1}^{*} + s α_{2}^{*}, v_{i} = \sum_{j = 3}^{m} α_{j}^{*} y_{j} K_{i j} = u_{i} + b^{*} - y_{1} α_{1}^{*} K_{1 i} - y_{2} α_{2}^{*} K_{2 i}$ 代入上式得:

$α_{2} (K_{11} + K_{22} - 2 K_{12}) = α_{2}^{*} (K_{11} + K_{22} - 2 K_{12}) + y_{2} (u_{1} - u_{2} + y_{2} - y_{1})$

目標函數對 $α_{2}$ 進行二次求導有:

$\frac{\partial}{\partial^{2} α_{2}} Ψ (α) = η = K_{11} + K_{22} - 2 K_{12}$

當 $η > 0$ 有：

$α_{2}^{n e w} = α_{2}^{*} + \frac{y_{2} (E_{1} - E_{2})}{η}$

$α_{1}^{n e w} = α_{1} + s (α_{2} - α_{2}^{n e w, c l i p p e d})$
當 $η \leq 0$ 有，此時易知 $α_{2}$ 取到邊界時，目標函數最小：

$f_{1} = y_{1} (E_{1} + b) - α_{1} K_{11} - s α_{2} K_{12},$

$f_{2} = y_{2} (E_{2} + b) - s α_{1} K_{12} - α_{2} K_{22},$

$L_{1} = α_{1} + s (α_{2} - L)$

$H_{1} = α_{1} + s (α_{2} - H)$

$Ψ_{L} = L_{1} f_{1} + L f_{2} + \frac{1}{2} L_{1}^{2} K_{11} + \frac{1}{2} L^{2} K_{22} + s L L_{1} K_{12}$

$Ψ_{H} = H_{1} f_{1} + H f_{2} + \frac{1}{2} H_{1}^{2} K_{11} + \frac{1}{2} H^{2} K_{22} + s H H_{1} K_{12}$

對比 $Ψ_{L}, Ψ_{H}$ , 取值較小的那個
每次更新完 $α$ 後都需要更新b值：

當 $α_{1}$ 不在界上時:

$b^{n e w} = b_{1} = E_{1} + y_{1} (α_{1}^{n e w} - α_{1}) K_{11} + y_{2} (α_{2}^{n e w, c l i p p e d} - α_{2}) K_{12} + b$

當 $α_{2}$ 不在界上時:

$b^{n e w} = b_{2} = E_{2} + y_{1} (α_{1}^{n e w} - α_{1}) K_{12} + y_{2} (α_{2}^{n e w, c l i p p e d} - α_{2}) K_{22} + b$

當雙方都在界上時：

$b = \frac{b_{1} + b_{2}}{2}$

推薦相關參考資料：

Andrew Ng在網易公開課的課堂資料，其中part V涉及到SVM. http://cimg3.163.com/edu/open/ocw/jiqixuexikecheng.zip
John Platt的SMO論文. https://www.microsoft.com/en-us/research/wp-content/uploads/2016/02/smo-book.pdf
JerryLead的博客. http://www.cnblogs.com/jerrylead/archive/2011/03/18/1988415.html#undefined

SVM支持向量機及SMO算法總結

函數間距與幾何間距：

最大化間距

拉格朗日對偶

應用拉格朗日求解最小間隙最大值

正則化及不可分情形討論

SMO優化

通過HPA+CronHPA組合應對業務複雜彈性伸縮場景

SVM支持向量機及SMO算法總結

拉格朗日乘子Lagrange Multiplier

MLflow 項目總覽

Paddle使用流程

Paxos Made Simple 論文解讀

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結