筆記(總結)-SVM(支持向量機)的理解-4

原創

2020-02-24 03:56

前三篇主要是介紹SVM的原理。最初SVM的原問題是凸二次優化問題，有現成的算法可以求解，費盡周折轉換到對偶問題，一是在對偶問題形勢下可以使用核函數，二是對偶問題我們可以高效求解。本篇主要介紹如何求解SVM。

SMO：Sequential Minimal Optimization

Coordinate Ascent（座標上升法）

回到我們的對偶問題：

max W (α) = \sum_{i} α_{i} - \frac{1}{2} \sum_{i} \sum_{j} α_{i} α_{j} y_{i} y_{j} x_{i}^{T} x_{j}

s . t . \sum_{i} α_{i} y_{i} = 0, 0 \leq α_{i} \leq C

上述問題僅僅是關於一系列 $α$ 的優化問題，即：

m a x_{α} W (α_{1}, . . ., α_{m})

考慮使用座標上升法解決該問題：

算法內層循環將 $α_{i}$ 看做變量，其他的 $α$ 看做常量進行優化。在二維情況下，函數等高線圖的優化路線如下：

可以看到，每一步優化中，都固定了一個變量，讓另一個變量取值使目標函數“最優”，交替更新兩個變量直到收斂或達到某種停止條件。然而由於如下限制，無法在對偶問題中使用座標上升法求解：

α_{1} = - y_{1} \sum_{i = 2}^{n} α_{i} y_{i}

假如我們想固定其他變量，更新 $α_{1}$ ，由於對偶問題的約束，固定其他變量後 $α_{1}$ 爲常量。

SMO Algorithm

只選取一個 $α_{i}$ 更新是不行的，那麼考慮一次至少更新兩個變量。這便是SMO算法的動機由來，算法如下：

算法思想很簡潔，先按某種方式選定要更新的兩個變量 $α_{i}, α_{j}$ ，然後固定其它變量對 $α_{i}, α_{j}$ 進行更新來優化 $W (α)$ 。

優化步驟

例如我們現在想優化 $α_{1}, α_{2}$ ，由約束可以得到：

α_{1} y_{1} + α_{2} y_{2} = - \sum_{i = 3}^{n} α_{i} y_{i} = 常 数, 记 为 ζ

又由對偶問題約束 $0 \leq α_{i} \leq C$ 可以得到可行解如下圖， $α_{1}, α_{2}$ 必須位於直線 $α_{1} y_{1} + α_{2} y_{2} = ζ$ 被矩形區域 $[0, C] \times [0, C]$ 截斷的線段上：

由直線約束可以將 $α_{1}$ 表示爲 $α_{2}$ 的函數，即：

α_{1} = (ζ - α_{2} y_{2}) y_{1}

由此得到目標函數的表達式爲：

W = W ((ζ - α_{2} y_{2}) y_{1}, α_{2}, . . ., α_{m})

將目標函數展開，得到一個關於 $α_{2}$ 的開口向下的二次函數，當不考慮矩形區域約束時可以直接求導，得到最優解 $α_{2}^{o p t}$ 。然而實際情況中由於矩形約束， $α_{2}$ 通常有取值區間 $[L, H]$ ，考慮最優解和取值區間的關係，更新得到實際最優值：

α_{2}^{*} = {\begin{cases} H, α_{2}^{o p t} > H \\ α_{2}^{o p t}, L \leq α_{2}^{o p t} \leq H \\ L, α_{2}^{o p t} < H \end{cases}

當得到 $α_{2}^{*}$ 後，可以依據直線約束更新 $α_{1}$ 。

選擇步驟

選擇違反KKT條件最多的樣本對應的 $α$ 作爲第一個變量，即對於每個訓練樣本，檢查是否滿足KKT條件（可參考SVM第2篇），選擇不滿足中程度最大者：

α_{i} = 0 ⟺ x_{i} 非 支 持 向 量 ⟺ y_{i} (w^{T} x + b) \geq 1

0 < α_{i} < C ⟺ x_{i} 在 边 界 上 ⟺ y_{i} (w^{T} x + b) = 1

α_{i} = C ⟺ x_{i} 可 能 被 错 误 分 类 ⟺ y_{i} (w^{T} x + b) \leq 1

對於第二個變量，應該選擇一個使目標函數數值增長最快的變量，但由於比較各變量所對應的目標函數值增幅的複雜度過高，SMO採用啓發式規則，使選取的兩變量對應樣本之間間隔最大，直觀上看，這樣選取的兩個變量差異較大，相比於對兩個相似變量進行更新，差異更大的變量能對目標函數帶來更大的變化。

至此我們得到了SMO的完整算法。

四篇過後，SVM基本講述清楚。參考來源之前的總結博客有記述傳送門，同時還參考了國科大《模式識別與機器學習》091M4042H課程蘭豔豔老師slides。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

筆記(總結)-SVM(支持向量機)的理解-4

SMO：Sequential Minimal Optimization

Coordinate Ascent（座標上升法）

SMO Algorithm

優化步驟

選擇步驟

10分鐘搞定Mysql主從部署配置

如何使用 JS 判斷用戶是否處於活躍狀態

「Pygors跨平臺GUI」2：安裝MinGW-w64、MSYS2還是WSL2

[轉帖]

python列出centos7內存使用前50的進程信息

「Pygors跨平臺GUI」1：Pygors跨平臺GUI應用研究

一鍵自動化博客發佈工具,用過的人都說好(掘金篇)

lightdb數據庫超時相關控制參數

lightdb秒級增加列和刪除列（not null帶默認值）

Java ThreadPoolShutdown

筆記(總結)-SVM(支持向量機)的理解-3

筆記(總結)-SVM(支持向量機)的理解-4

筆記(總結)-XGBoost的前世今生

筆記(總結)-SVM(支持向量機)的理解-1

筆記(總結)-PCA(主成分分析)

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結