支持向量機（四）——深入理解SMO優化算法

本文結合了《統計學習方法》，吳恩達中文筆記，以及一些博客文章https://www.cnblogs.com/pinard/p/6111471.html,http://www.cnblogs.com/vivounicorn/archive/2011/06/01/2067496.html，https://blog.csdn.net/Victor_Gun/article/details/45228071，並結合個人理解總結出了這篇詳細介紹SMO算法的文章。文章有詳細的數學推導過程，可以解決大多數疑惑的地方，希望能對大家有所幫助。
支持向量機的最後一節，用SMO優化算法解決對偶函數的最後優化問題，首先先介紹座標上升法

1.座標上升法

假設我們有一個要求解的優化問題： $\underset{α}{m a x} W (α_{1}, α_{2}, . . ., α_{m})$ 這裏W是 $α$ 向量的函數。之前我們講過求最優解的兩種方法分別是梯度下降法和牛頓法，這裏是新的一種方法——座標上升法，其方法過程爲：

最裏面的語句表示固定除

α_{i}

之外所有

α_{j} （ j \neq i ）

，這時W可以看做只是關於

α_{i}

的函數，那麼直接對

α_{i}

求導優化即可。我們用一張圖來說明一下這個算法：

由於每次只固定一個參數所以求導後是一條直線，從圖中可以看出迭代的優化路徑總是沿着和座標軸平行的方向前進，每一步都前進一步，因爲每一步只優化一個變量。
座標上升法雖然比牛頓法有更多的迭代，但每次迭代的代價都很小。

2.SMO優化算法（Sequential minimal optimization）

SMO算法解決對偶函數的最後優化問題：

要解決的是在參數

α

上求最大值W的問題，C是我們預先設定的已知數。將上面的式子修改一下可以寫成：

按照座標上升的思路，我們固定除

α_{1}

其中一個參數以外的所有參數，但是這樣有問題，因爲固定

α_{1}

之外所有參數，那麼

α_{1}

不再是變量，因爲

α_{1}

可以由其他固定的參數表示出來。
因此我們需要一次選擇兩個參數做優化，比如

α_{1}

和

α_{2}

，此時

α_{2}

可以由

α_{1}

和其他參數表示出來，再帶回W中，W就是隻關於

α_{1}

的函數，可解。這樣,SMO的主要步驟爲：

第一步中的啓發式方法之後介紹。第二步就是進行約束。SMO高效的原因就是固定其他參數後，對一個參數優化過程很高效。有一點要注意的是，這裏的收斂條件是什麼呢？其實就是滿足KKT條件。那麼怎樣在滿足所有約束條件的情況下能相對於αi,αj取得W最優呢？假設我們選取的參數是α1,α2，那麼有：

所以能得到：

接下來將

W (α)

改寫一下：

對比原式

W (α)

，展開爲

W (α_{2}) = {A α_{2}}^{2} + B α_{2} + C ，

那麼我們可以對W求導求得

α_{2}

相應的值爲

α_{2}^{n e w, u n c l i p p e d}

（unclipped的意思是說不用考慮約束條件）。然後再更新我們得到剪輯後的α2的更新式子爲：

得到

α_{2}^{n e w}

後，也就可以求出

α_{1}^{n e w}

了。

以下是推導過程，首先推導出未考慮約束條件的 $α_{2}^{n e w, u n c l i p p e d}$ 。爲了敘述方便我們記：

Ei爲函數g(xi)對輸入xi的預測值與真實輸出yi之間的差。
引入記號變量

v_{i} = \sum_{j = 3}^{N} α_{j} y_{j} K (x_{i}, x_{j}) = g (x_{i}) - \sum_{j = 1}^{2} α_{j} y_{j} K (x_{i}, x_{j}) - b, i = 1, 2

目標函數可寫成

W (α_{1}, α_{2}) = \frac{1}{2} K_{11} α_{1}^{2} + \frac{1}{2} K_{22} α_{2}^{2} + y_{1} y_{2} K_{12} α_{1} α_{2} - (α_{1} + α_{2}) + y_{1} v_{i} α_{1} + y_{2} v_{i} α_{2}

根據

α_{1} y_{1} = ζ - α_{2} y_{2}

以及

{y_{i}}^{2} = 1

，將兩遍同乘一個

y_{i}

，則可將

α_{1}

表示爲：

α_{1} = (ζ - α_{2} y_{2}) * y_{1}

將

α_{1}

帶入到目標函數中，則目標函數變爲只含α2的函數：

將

α_{1}^{o l d} y_{1} + α_{2}^{o l d} y_{2} = ζ

和

η = K_{11} + K_{22} - 2 K_{12}

代入，就可以得到：

α_{2}^{n e w, u n c} = α_{2}^{o l d} + \frac{y_{2} (E_{1} - E_{2})}{η}

接下來我們關注一下問題的約束條件：

我們用圖片表示一下，當y1與y2異號的時候：

同號的時候

可以看到

α_{1}, α_{2}

兩個乘子既要位於邊長爲C的盒子裏又要在相應直線上，於是對於

α_{2}

的界來說，有如下情況：

我們實際來計算其中的一個，選定同號的計算

x_{1}^{o l d} + x_{2}^{o l d} = x_{1}^{n e w} + x_{2}^{n e w} = ζ

，當

x_{1}^{n e w}

處於邊界時，即

x_{1}^{n e w} = 0

時，

x_{2}^{n e w} = x_{1}^{o l d} + x_{2}^{o l d}

，當

x_{1}^{n e w} = C

時，

x_{2}^{n e w} = x_{1}^{o l d} + x_{2}^{o l d} - x_{1}^{n e w} = x_{1}^{o l d} + x_{2}^{o l d} - C

，結合

x_{2}^{n e w}

給定的限制，就得到了L和H的範圍，當y1,y2異號時也類似計算。

代入

(ζ - α_{2} y_{2}) * y_{1}

可求得

α_{1}^{n e w}

值爲：

α_{1}^{n e w} = α_{1}^{o l d} + y_{1} y_{2} (α_{2}^{o l d} - α_{1}^{o l d})

選擇的兩個變量得到最優化的解 $α_{1}^{n e w}$ 和 $α_{2}^{n e w}$ 後，我們要根據最優化的解求出對應的滿足KKT條件的b值，因爲KKT條件就是我們收斂的條件。所以我們繼續推導出閾值b的更新：

推導b——首先來看一下KKT條件：

當

0 < α_{1}^{n e w} < C

，由以上KKT條件可知：

y_{1} - \sum_{i = 1}^{N} α_{i} y_{i} K_{i 1} - b = 0

於是有：

b_{1}^{n e w} = y 1 - \sum_{i = 3}^{N} α_{i} y_{i} K_{i 1} - α_{1}^{n e w} y_{1} K_{11} - α_{2}^{n e w} y_{2} K_{21}

由之前

E_{1}

定義是得：

E_{1} = \sum_{i = 3}^{N} α_{i} y_{i} K_{i 1} + α_{1}^{o l d} y_{1} K_{11} + α_{2}^{o l d} y_{2} K_{21} + b^{o l d} - y 1

可以看到上兩式都有

y 1 - \sum_{i = 3}^{N} α_{i} y_{i} K_{i 1}

，因此可以將

b_{1}^{n e w}

用

E_{1}

表示爲：

b_{1}^{n e w} = - E_{1} - y_{i} K_{11} (α_{1}^{n e w} - α_{1}^{o l d}) - y_{2} K_{21} (α_{2}^{n e w} - α_{2}^{o l d}) + b^{o l d}

同樣，如果

0 < α_{2}^{n e w} < C

b_{2}^{n e w} = - E_{2} - y_{i} K_{12} (α_{1}^{n e w} - α_{1}^{o l d}) - y_{2} K_{22} (α_{2}^{n e w} - α_{2}^{o l d}) + b^{o l d}

如果

α_{1}^{n e w}

和

α_{2}^{n e w}

都滿足條件

0 < α_{i}^{n e w} < C

，i=1,2，那麼

b_{1}^{n e w} = b_{2}^{n e w}

，如果

α_{i}

等於0或者C，那麼

b_{1}^{n e w}

和

b_{2}^{n e w}

以及它們之間的數都符合KKT條件的閾值，這時選擇它們的中點作爲

b^{n e w}

。
每次完成優化後，還需要更新

E_{i}

，

E_{i}

更新要用到

b^{n e w}

，以及所有支持向量對應的

α_{j}

E_{i} = \sum_{S} y_{j} α_{j} K (x_{i}, x_{j}) + b^{n e w} - y_{i}

其中，S是所有支持向量

x_{j}

的集合。

3.SMO中拉格朗日乘子的啓發式選擇方法

SMO算法在每個子問題中選擇兩個變量優化，其中至少一個變量是違反KKT條件的

3.1 第一個變量的選擇

SMO算法稱選擇第一個變量爲外層循環，這個變量需要選擇在訓練集中違反KKT條件最嚴重的樣本點。選擇方法爲
1.優先選擇樣本前面係數 $0 < α_{i} < C$ 的 $α_{i}$ 作優化（稱爲無界樣例），判斷它們是否滿足KKT條件。
2.如果這些樣本點都滿足KKT條件，那麼遍歷整個訓練集，檢驗它們是否都滿足KKT條件。
3.遍歷完子集後，重新開始1，2，直到在執行1和2時沒有任何修改就結束
遍歷方法不止這一種，其他版本的例如Platt論文中的是指出先遍歷整個樣本，再遍歷無界樣本的算法。

那麼大家最關心的的問題來了：爲什麼要選擇違反KKT條件最嚴重的點進行優化呢？其次，優化後是否就能保證樣本滿足KKT條件？
這裏需要引進一個概念——監視可行間隙
它是原始目標函數值和對偶目標函數值的間隙，對於凸二次優化來說這個間隙是零，]則原始目標函數 $O (w, b)$ 與對偶目標函數 $W (α)$ 的都是求極小值，它們的差爲：

在這篇文章http://www.cnblogs.com/vivounicorn/archive/2011/06/01/2067496.html中推導了當選擇違背KKT條件的樣本時，可行間隙變大，結合Osuna定理我們只需要選取的

α_{i}

與

α_{j}

中有一個不滿足KKT條件，目標函數就會在迭代後值會減小（我們要求最大值），因此我們要對違反KKT條件的樣本點就行優化，最後可以選擇參數b使優化的參數滿足KKT條件。

3.2 第二個變量的選擇

首先我們來看之前得到的一個公式：

α_{2}^{n e w} = α_{2}^{o l d} + \frac{y_{2} (E_{1} - E_{2})}{η}

SMO算法稱選擇第二個變量爲內層循環，假設我們在外層循環已經找到了

α_{1}

, 則第二個變量

α_{2}

的選擇標準是讓|E1−E2|有足夠大的變化。因爲

α_{1}

已定，那麼

E_{1}

也確定了，所以要想|E1−E2|最大，只需要在

E_{1}

爲正時，選擇最小的

E_{i}

作爲

E_{2}

，在

E_{1}

爲負時，選擇最大的

E_{i}

作爲

E_{2}

，可以將所有的

E_{i}

保存下來加快迭代。
確定第二個乘子方法：
1、首先在無界乘子中尋找使得|E_1-E_2|最大的樣本；
2、如果1中沒找到則從隨機位置查找無界乘子樣本；
3、如果2中也沒找到，則從隨機位置查找整個樣本(包含界上和無界乘子)。

最後的收斂條件是在界內（ $0 < α_{i} < C$ ）的樣例都能夠遵循KKT條件，且其對應的 $α_{i}$ 只在極小的範圍內變動。

4.SMO算法總結（統計學習方法中的算法）

SMO算法將原問題不斷分解爲子問題並對子問題求解，進而達到求解原問題的目的。
假設輸入是m個樣本 $(x_{1}, y_{1}), (x_{2}, y_{2}), . . ., (x_{m}, y_{m})$ ,其中x爲n維特徵向量。y爲二元輸出，值爲1，或者-1.精度e。
輸出是近似解α
1)取初值 $α_{0} = 0, k = 0$
2)按照3.1節的方法選擇 $α_{1}^{k}$ ,接着按照3.2節的方法選擇 $α_{2}^{k}$ ，求出新的

α_{2}^{n e w, u n c} = α_{2}^{k} + \frac{y_{2} (E_{1} - E_{2})}{η}

3)根據約束條件求出剪輯後的

α_{2}^{k + 1}

和

α_{1}^{k + 1}

，更新

α

爲

α^{k + 1}

；
4)計算

b^{k + 1}

和

E_{i}

5)在精度e範圍內檢查是否滿足如下的終止條件：

\sum_{i = 1}^{N} α_{i} y_{i} = 0

0 \leq α i \leq C, i = 1, 2... m

α_{i}^{k + 1} = 0 \Rightarrow y_{i} g (x_{i}) \geq 1

0 < α_{i}^{k + 1} < C \Rightarrow y_{i} g (x_{i}) = 1

α_{i}^{k + 1} = C \Rightarrow y_{i} g (x_{i}) \leq 1

6)如果滿足則結束，返回

α_{k + 1}

,否則轉到步驟2。

5.總結

文章內容範圍比較大，完成比較倉促，在公式書寫上可能存在問題，希望大家能批評指正，我會及時修改過來，謝謝大家。

7.14 一更：對編程代碼中的一部分理解

            if (L == H),
                 % continue to next i. 
                   continue;
            end
            eta = 2 * K(i,j) - K(i,i) - K(j,j);
            if (eta >= 0),
                 % continue to next i. 
                   continue;
            end
            if (abs(alphas(j) - alpha_j_old) < tol),
                % continue to next i. 
                % replace anyway
                alphas(j) = alpha_j_old;
                continue;
            end

其實這三段代碼含義有類似之處，我們知道所選的兩個參數第一個參數是判斷不滿足KKT條件，這裏要求的a2目的是爲了|E2-E1|最大，如果a2沒有明顯的優化的話
或者a2就是常量的話，則並不需要求最優解，迭代後值不變，只需要帶到目標函數中計算最後的值。
這裏第一段L=H，說明a2是定值，即並不需要優化就是最優值。第二段 $η$ 是alpha(j)的最優修改量， $η$ 大於等於0的情況說明，說明 $η$ 極小值在邊界上取，對應的a2也是定值，不需要優化。第三段發現優化後的a2與原值基本沒有變化，相當於沒有優化。因此都直接跳入到下一個循環中。最後的b要滿足帶入所有的樣本中都滿足KKT條件。
但是代碼中爲什麼不繼續計算更新後的b,而是直接跳到下一個循環中（繼續b的式子在這3個判斷之後），畢竟每次更新計算都要用到b，希望大神指點一下

支持向量機（四）——深入理解SMO優化算法

1.座標上升法

2.SMO優化算法（Sequential minimal optimization）

3.SMO中拉格朗日乘子的啓發式選擇方法

3.1 第一個變量的選擇

3.2 第二個變量的選擇

4.SMO算法總結（統計學習方法中的算法）

5.總結

P4編程環境搭建+實現tutorials中basic的案例

LeetCode Python3——5. 最長迴文數

LeetCode Python3——10. 正則表達式匹配

LeetCode Python3——6. Z字形變換

LeetCode Python3——8.字符串轉整數

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結