筆記(總結)-SVM(支持向量機)的理解-1

原創

2020-02-24 03:56

SVM即支持向量機作爲神經網絡復興前的最強大模型，建模和推導有着嚴密的數學推導作爲基礎，在訓練完成後計算速度也較快，得到了廣泛的應用。本文先闡述SVM的基本問題和推導過程，再引入軟間隔的SVM，最後引入核函數和求解方法。

問題引入

考慮簡單的二分類問題，我們想找一個“最好”的超平面來分隔兩類樣本。可以看到，在樣本點線性可分的情況下，能夠找到多個超平面。但其中黑色超平面直觀上來看是最合理的，所有樣本點到黑色超平面的距離都比較遠。新來一個樣本時，由於噪聲或訓練集侷限性（採樣）等因素，新樣本可能更加接近超平面，導致分類錯誤，而黑色超平面受的影響最小，因爲所有樣本到它的距離都比較遠，泛化能力最強。

樣本空間中，超平面方程如下：

w^{T} x + b = 0

樣本空間中任意一點 $x_{0}$ 到超平面的距離爲：

r = \frac{| w^{T} x_{0} + b |}{| | w | |}

如何描述這個“最好”的超平面？我們引入兩條“間隔”超平面作爲“楚河漢界”，現在我們的目標變爲：在滿足所有樣本點位於邊界外的基礎上（分類正確），使“楚河漢界”最寬（泛化能力最強）。

我們取兩條間隔線爲 $w^{T} x + b = \pm k$ ，在任意間隔線上取一點，到另一間隔線的距離即爲“楚河漢界”寬度，等於 $d = \frac{2 k}{| | w | |}$ ，此時我們的目標變爲：

max d

s . t . w^{T} x + b \geq k, y = 1

w^{T} x + b \leq - k, y = - 1

由於目標爲最大間隔，而 $k$ 相當於衡量寬度的一個尺度，取不同尺度只會改變目標函數的優化程度，爲了之後模型推導的方便，取 $k = 1$ 。目標等價變爲：

m i n \frac{1}{2} {| | w | |}^{2}

s . t . y_{i} (w^{T} x + b) \geq 1, \forall x_{i}

在該問題中，約束條件爲仿射函數，爲凸二次規劃問題，可以直接求解。但推導得到等價的對偶問題後，可以更高效地求解。

拉格朗日乘數法與對偶問題

不失一般性，定義原問題 $p^{*}$ 如下:

min f (w)

s . t . g_{i} (w) \leq 0

構造拉格朗日函數：

L (w, α) = f (w) + \sum_{i} α_{i} g_{i} (w)

定義：

θ_{p} (w) = max_{α_{i} \geq 0} L (w, α)

有：

θ_{p} (w) = {\begin{cases} f (w) & 限 制 滿 足 \\ + \infty & 限 制 不 滿 足 \end{cases}

在 $α_{i} \geq 0$ 的前提下，若不滿足 $g_{i} (w) \leq 0$ ，可取不滿足的約束，取對應 $α_{i}$ 爲無窮，則函數爲無窮。此時原問題 $p^{*}$ 的等價表述爲：

min f (w) = min θ_{p} (w) = min max_{α_{i} \geq 0} L (w, α) 即 为 p^{*}

得到對偶問題 $d^{*}$ 爲：

max_{α_{i} \geq 0} min L (w, α) = max_{α_{i} \geq 0} θ_{D} (w) 令 爲 d^{*} 其 中 θ_{D} (w) = min L (w, α)

當滿足KKT條件時：

{\begin{cases} α_{i} \geq 0 \\ g_{i} (w) \leq 0 \\ α_{i} g_{i} (w) = 0 \end{cases}

原問題和對偶問題有相同的解。

SVM對偶問題

回到SVM原問題 $p^{*}$ :

m i n \frac{1}{2} {| | w | |}^{2}

s . t . y_{i} (w^{T} x + b) \geq 1, \forall x_{i}

構造拉格朗日算子，顯然有：

f (w) = \frac{1}{2} | | w | |^{2}

g_{i} (w) = 1 - y_{i} (w^{T} x_{i} + b) \leq 0

L (w, α) = f (w) + \sum_{i} α_{i} g_{i} (w)

通過解對偶問題來解原問題

max_{α_{i} \geq 0} min L (w, α) = max_{α_{i} \geq 0} θ_{D} (w) 其 中 θ_{D} (w) = min_{w, b} L (w, α)

對於 $L (w, α)$ ，極值在偏導爲0處取到(注意此時 $L 只是关于 w 和 b 的函数$ )，令：

\frac{\partial L}{\partial w} = 0, \frac{\partial L}{\partial b} = 0

得到：

w = \sum_{i} α_{i} y_{i} x_{i}, \sum_{i} α_{i} y_{i} = 0

將 $w$ 代回 $L$ ，得到：

min_{w, b} L = \sum_{i} α_{i} - \frac{1}{2} \sum_{i} \sum_{j} α_{i} α_{j} y_{i} y_{j} x_{i}^{T} x_{j}, 记 为 W (α)

可以看到 $L$ 只是關於 $α$ 的函數，對偶問題即爲：

d^{*} = max W (α)

s . t . α_{i} \geq 0, \sum_{i} α_{i} y_{i} = 0

此時回過頭來，我們看KKT條件，易得若 $α_{i} > 0$ ，則有 $g_{i} (w) = 0$ ，即 $y_{i} (w^{T} x_{i} + b) = 1$ ， $x_{i}$ 位於間隔超平面上，我們稱這樣的樣本爲支持向量。當我們求解得到 $α_{i}$ 代入後，由 $w = \sum_{i} α_{i} y_{i} x_{i}$ 即可得到 $w$ ，由任意一支持向量均滿足 $g_{i} (w) = 0$ ，將 $w, x_{i}, y_{i}$ 代入即可得到 $b$ ，最終判別函數爲：

f (x) = w^{T} x + b = (\sum_{i} α_{i} y_{i} x_{i}^{T}) x + b = \sum_{i} α_{i} y_{i} (x_{i}^{T} x) + b

對於所有非支持向量的樣本，有 $α_{i} = 0$ ，即在最終的判別函數中只有支持向量起作用，故SVM可以看做一系列支持向量的“加權和”構成的模型。

本文總結了SVM的建模來由、對偶問題和模型推導過程，最終得到了SVM對偶問題的形式和判別函數。其餘內容下文再續。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

筆記(總結)-SVM(支持向量機)的理解-1

問題引入

拉格朗日乘數法與對偶問題

SVM對偶問題

筆記(總結)-SVM(支持向量機)的理解-3

筆記(總結)-SVM(支持向量機)的理解-4

筆記(總結)-XGBoost的前世今生

筆記(總結)-SVM(支持向量機)的理解-1

筆記(總結)-PCA(主成分分析)

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結