文章目錄

支持向量機內容特別多，爲了方便閱讀，分成三個部分，上接：
07_支持向量機1_統計學習方法
 07_支持向量機2_統計學習方法。

五、SMO算法

KKT條件中的（k4）（k5）還沒有使用過，這兩個條件主要就是用來求解參數 $\alpha , \mu$ 的。但是對於樣本數量和特徵比較多的時候，這麼硬幹是非常耗費內存和時間的。所以在求解參數 $\alpha$ 時，大牛們使用了更有效的方法——SMO算法（序列最小最優算法），如果沒理解錯的話就是化整爲零，分而治之的思想。

SMO算法是一種啓發式算法，其基本思路是：如果所有變量的解都滿足此最優化問題的KKT條件，那麼這個最優化問題的解就得到了。因爲KKT條件是該最優化問題的充分必要條件。SMO思路，選擇兩個變量，固定其他變量，針對這兩個變量構建一個二次規劃問題，這個二次規劃問題關於這兩個變量的解應該更接近原始二次規劃問題的解，因爲這會使得原始二次規劃問題的目標函數值變得更小。重要的是，這時子問題可以通過解析方法求解，這樣就可以大大提高整個算法的計算速度。子問題有兩個變量，一個是違反KKT條件最嚴重的那一個，另一個由約束條件自動確定。如此，SMO算法將原問題不斷分解爲子問題並對子問題求解，進而達到求解原問題的目的。

非線性支持向量機的優化問題：
$\begin{aligned} \min_{\alpha}\space\space & \dfrac{1}{2}\sum_{i=1}^N\sum_{j=1}^N \alpha_i \alpha_j y_i y_j K({\bf x_i} , {\bf x_j}) - \sum_{i=1}^N \alpha_i \\ s.t. \space\space & \sum_{i=1}^N \alpha_i y_i = 0 \\ & 0 \leq \alpha_i \leq C ,\space\space i=1,2,\cdots ,N \end{aligned}$

1、兩個變量二次規劃的求解方法

（1）定義子問題

假設選擇的兩個變量是 $\alpha_1,\alpha_2$ ，其他變量 $\alpha_i(i=3,4,\cdots , N)$ 是固定的。於是上面非線性支持向量機的優化問題的SMO子問題可以寫成：
$\begin{aligned} \min_{\alpha_1,\alpha_2}\space\space W(\alpha_1,\alpha_2) & = \dfrac{1}{2}\sum_{i=1}^N\sum_{j=1}^N \alpha_i \alpha_j y_i y_j K({\bf x_i} , {\bf x_j}) - \sum_{i=1}^N \alpha_i \\ & = \dfrac{1}{2}\sum_{i=1}^N \left( \sum_{j=1}^2 \alpha_i \alpha_j y_i y_j K({\bf x_i} , {\bf x_j}) + \sum_{j=3}^N \alpha_i \alpha_j y_i y_j K({\bf x_i} , {\bf x_j}) \right) - (\alpha_1 + \alpha_2) - \sum_{i=3}^N \alpha_i \\ & = \dfrac{1}{2}\sum_{i=1}^2 \left( \sum_{j=1}^2 \alpha_i \alpha_j y_i y_j K({\bf x_i} , {\bf x_j}) + \sum_{j=3}^N \alpha_i \alpha_j y_i y_j K({\bf x_i} , {\bf x_j}) \right) \\ &+ \dfrac{1}{2}\sum_{i=3}^N \left( \sum_{j=1}^2 \alpha_i \alpha_j y_i y_j K({\bf x_i} , {\bf x_j}) + \sum_{j=3}^N \alpha_i \alpha_j y_i y_j K({\bf x_i} , {\bf x_j}) \right) - (\alpha_1 + \alpha_2) - \sum_{i=3}^N \alpha_i \\ & = \dfrac{1}{2}\sum_{i=1}^2 \sum_{j=1}^2 \alpha_i \alpha_j y_i y_j K({\bf x_i} , {\bf x_j}) + \sum_{i=1}^2 \sum_{j=3}^N \alpha_i \alpha_j y_i y_j K({\bf x_i} , {\bf x_j}) \\ &+ \dfrac{1}{2}\sum_{i=3}^N \sum_{j=3}^N \alpha_i \alpha_j y_i y_j K({\bf x_i} , {\bf x_j}) - (\alpha_1 + \alpha_2) - \sum_{i=3}^N \alpha_i \\ & = \dfrac{1}{2}K_{11} \alpha_1^2 + \dfrac{1}{2}K_{22} \alpha_2^2 + y_1 y_2 K_{12}\alpha_1 \alpha_2 + y_1 \alpha_1 \sum_{i=3}^N y_i \alpha_i K_{i1} + y_2 \alpha_2 \sum_{i=3}^N y_i \alpha_i K_{i2} \\ &- (\alpha_1 + \alpha_2) - \sum_{i=3}^N \alpha_i + \dfrac{1}{2}\sum_{i=3}^N \sum_{j=3}^N \alpha_i \alpha_j y_i y_j K({\bf x_i} , {\bf x_j}) \end{aligned}$

上式最後兩項爲常數項，對於求解最優的 $\alpha_1,\alpha_2$ 毫無作用，捨去，則有SMO對於變量 $\alpha_,\alpha_2$ 的子問題可以寫成：
$\begin{aligned} \min_{\alpha_1,\alpha_2}\space\space & W(\alpha_1,\alpha_2) = \dfrac{1}{2}K_{11} \alpha_1^2 + \dfrac{1}{2}K_{22} \alpha_2^2 + y_1 y_2 K_{12}\alpha_1 \alpha_2 + y_1 \alpha_1 \sum_{i=3}^N y_i \alpha_i K_{i1} + y_2 \alpha_2 \sum_{i=3}^N y_i \alpha_i K_{i2} - (\alpha_1 + \alpha_2) &\space\space\space\space(29)\\ s.t.\space\space & \alpha_1 y_1 + \alpha_2 y_2 = -\sum_{i=3}^N y_i \alpha_i = \zeta &\space\space\space\space(30)\\ & 0 \leq \alpha_1 \leq C ,i =1,2 &\space\space\space\space(31) \end{aligned}$

$K_{ij} = K(x_i,x_j),i,j =1,2,\cdots,N$
$\zeta$ 是常數

（2）確定變量範圍

由於只有兩個變量 $(\alpha_1,\alpha_2)$ ，約束可以用二維空間中的圖形表示，如下圖：

二變量優化問題圖示

不等式約束（31)使得 $(\alpha_1,\alpha_2)$ 在盒子 $[0,C] \times [0,C]$ 內；
等式約束（30）使得 $(\alpha_1,\alpha_2)$ 在平行於盒子 $[0,C] \times [0,C]$ 的對角線的直線上。

因此要求的是目標函數在一條平行於對角線的線段上的最優值。這使得兩個變量的最優化問題成爲實質上的單變量的最優化問題，不妨考慮爲變量 $\alpha_2$ 的最優化問題。

假設問題（29）-（31）的初始可行解爲 $\alpha_1^{old},\alpha_2^{old}$ ，最優解爲 $\alpha_1^{new},\alpha_2^{new}$ ，並且假設在沿着約束方向未經剪輯時 $\alpha_2$ 的最優解爲 $\alpha_2^{new,unc}$ ， $\alpha_2$ 剪輯後的解爲 $\alpha_2^{new}$ 。
$\alpha_2^{new}$ 必須滿足式（31），則 $\alpha_2^{new}$ 的取值範圍必須滿足：
$L \leq \alpha_2^{new} \leq H$

因爲有式（30），則有：
$\alpha_1^{old} y_1 + \alpha_2^{old} y_2 = -\sum_{i=3}^N y_i \alpha_i = \alpha_1^{new} y_1 + \alpha_2^{new} y_2 \tag{32}$

當 $y_1與y_2$ 異號時：
$\alpha_1^{old} y_1 y_2 + \alpha_2^{old} y_2^2 = \alpha_1^{new} y_1 y_2 + \alpha_2^{new} y_2^2 \Longrightarrow \alpha_2^{new} = \alpha_2^{old} - \alpha_1^{old} + \alpha_1^{new}$
又因爲：
$0 \leq \alpha_1 \leq C,\space\space 0 \leq \alpha_2 \leq C$
所以有：
$L = \max(0,\alpha_2^{old} - \alpha_1^{old}),\space\space H = \min(C,C + \alpha_2^{old} - \alpha_1^{old})$
當 $y_1與y_2$ 同號時：
$\alpha_1^{old} y_1 y_2 + \alpha_2^{old} y_2^2 = \alpha_1^{new} y_1 y_2 + \alpha_2^{new} y_2^2 \Longrightarrow \alpha_2^{new} = \alpha_2^{old} + \alpha_1^{old} - \alpha_1^{new}$
所以有：
$L = \max(0,\alpha_2^{old} + \alpha_1^{old}- C),\space\space H = \min(C, \alpha_2^{old} + \alpha_1^{old})$

（3）最優求解

爲了方便書寫，令：
$\begin{aligned} & g(x) = \sum_{j=1}^N \alpha_j y_j K(x,x_j) + b &\space\space\space\space(w1)\\ & \nu_i = \sum_{j=3}^N \alpha_j y_j K(x_i,x_j) = g(x_i) - \sum_{j=1}^2 \alpha_j y_j K(x_i,x_j) - b &\space\space\space\space(w2)\\ & E_i = g(x_i) - y_i = \left(\sum_{j=1}^N \alpha_j y_j K(x_i,x_j) + b \right) - y_i &\space\space\space\space(w3)\\ & \eta = K_{11} + K_{22} - 2K_{12} = ||\phi(x_1) - \phi(x_2)||^2 &\space\space\space\space(w4) \end{aligned}$

當 $i=1,2$ 時， $E_i$ 爲函數 $g(x)$ 對輸入 $x_i$ 的預測值與真實輸出 $y_i$ 之差。
$\phi(x)$ 是輸入空間到特徵空間的映射

則目標函數可以寫成：
$\begin{aligned} W(\alpha_1,\alpha_2) & = \dfrac{1}{2}K_{11} \alpha_1^2 + \dfrac{1}{2}K_{22} \alpha_2^2 + y_1 y_2 K_{12}\alpha_1 \alpha_2 + y_1 \alpha_1 \sum_{i=3}^N y_i \alpha_i K_{i1} + y_2 \alpha_2 \sum_{i=3}^N y_i \alpha_i K_{i2} - (\alpha_1 + \alpha_2) \\ & = \dfrac{1}{2}K_{11} \alpha_1^2 + \dfrac{1}{2}K_{22} \alpha_2^2 + y_1 y_2 K_{12}\alpha_1 \alpha_2 + y_1 \nu_1 \alpha_1 + y_2 \nu_2 \alpha_2 - (\alpha_1 + \alpha_2) \tag{33} \end{aligned}$

由 $\alpha_1 y_1 = \zeta - \alpha_2 y_2 及 y_i^2 =1$ ，可將 $\alpha_1$ 表示爲：
$\alpha_1 = (\zeta - y_2 \alpha_2) y_1$
將上式 $\alpha_1$ 代入目標函數（33）得到只含有 $\alpha_2$ 的目標函數：
$W(\alpha_2) = \dfrac{1}{2}K_{11} (\zeta - \alpha_2 y_2)^2 + \dfrac{1}{2}K_{22} \alpha_2^2 + y_2 K_{12}(\zeta - \alpha_2 y_2) \alpha_2 + \nu_1 (\zeta - \alpha_2 y_2) + y_2 \nu_2 \alpha_2 - (\zeta - y_2 \alpha_2) y_1 - \alpha_2 \tag{34}$
上式對 $\alpha_2$ 求導得：
$\dfrac {\partial W}{\partial {\alpha_2}} = K_{11} \alpha_2 - K_{11}\zeta y_2 + K_{22} \alpha_2 + K_{12}\zeta y_2 - 2K_{12}\alpha_2 - \nu_1 y_2 + y_2 \nu_2 + y_1 y_2 -1$
令其爲0，得到：
$\begin{aligned} \left(K_{11} + K_{22} - 2K_{12}\right)\alpha_2 &= K_{11}\zeta y_2 - K_{12}\zeta y_2 + \nu_1 y_2 - y_2 \nu_2 - y_1 y_2 + y_2^2 \\ & = y_2[ K_{11}\zeta - K_{12}\zeta + \left( g(x_1) - \sum_{j=1}^2 \alpha_j y_j K_{1j} - b \right) - \left( g(x_2) - \sum_{j=1}^2 \alpha_j y_j K_{2j} - b \right) - y_1 + y_2 ] \end{aligned}$

將 $\zeta = \alpha_1^{old} y_1 + \alpha_2^{old} y_2$ 代入得到：
$\begin{aligned} \left(K_{11} + K_{22} - 2K_{12}\right)\alpha_2^{new,unc} &= y_2((K_{11} + K_{22} - 2K_{12})\alpha_2^{old} y_2 + y_2 - y_1 + g(x_1)-g(x_2)) \\ & = (K_{11} + K_{22} - 2K_{12})\alpha_2^{old} + y2(E_1 - E_2) \end{aligned}$
將 $\eta = K_{11} + K_{22} - 2K_{12} = ||\phi(x_1) - \phi(x_2)||^2$ 代入得到：
$\alpha_2^{new,unc} = \alpha_2^{old} + \dfrac{y_2(E_1 - E_2)}{\eta} \tag{35a}$

則得到剪輯後的 $\alpha_2$ 的解爲：
$\alpha_2^{new} = \begin{cases} H, & \alpha_2^{new,unc} > H \\[2ex] \alpha_2^{new,unc}, & L \leq \alpha_2^{new,unc} \leq H \tag{35}\\[2ex] L, & \alpha_2^{new,unc} < L \end{cases}$

由 $\alpha_2^{new}$ 和等式約束（32）求得 $\alpha_1^{new}$ 是：
$\alpha_1^{new} = \alpha_1^{old} + y_1 y_2 (\alpha_2^{old} - \alpha_2^{new} )$

於是得到問題（29）-（31）的解 $(\alpha_1^{new},\alpha_2^{new})$

（4）計算閾值b和差值E

在每次完成兩個變量的優化後，都要重新計算閾值b和差值E。

閾值b更新

當 $0< \alpha_1^{new} < C$ 時，由KKT條件(k3)(k6)(k8)可知：
$\sum_{i=1}^N \alpha_i y_i K_{i1} + b = y_1$
於是，
$b_1^{new} = y_1 - \sum_{i=3}^N \alpha_i y_i K_{i1} - \alpha_1^{new} y_1 K_{11} - \alpha_1^{new} y_1 K_{11} \tag{36}$
由 $E_1$ 的定義有
$E_1 = \sum_{i=3}^N \alpha_i y_i K_{i1} + \alpha_1^{old} y_1 K_{11} + \alpha_2^{old} y_2 K_{21} + b^{old} - y_1$
則式（36）等號右側的前兩項可寫成：
$y_1 - \sum_{i=3}^N \alpha_i y_i K_{i1} = -E_1 + \alpha_1^{old} y_1 K_{11} + \alpha_2^{old} y_2 K_{21} + b^{old}$
把上式代入式（36）可得：
$b_1^{new} = -E_1 - y_1 K_{11}（\alpha_1^{new} - \alpha_1^{old}) - y_2 K_{21}（\alpha_2^{new} - \alpha_2^{old}) + b^{old} \tag{37}$

同樣，如果 $0< \alpha_2^{new} < C$ ，那麼，
$b_2^{new} = -E_2 - y_1 K_{12}（\alpha_1^{new} - \alpha_1^{old}) - y_2 K_{22}（\alpha_2^{new} - \alpha_2^{old}) + b^{old} \tag{38}$

如果 $\alpha_1^{new},\alpha_2^{new}$ 同時滿足 $0< \alpha_i^{new} < C,\space i=1,2$ ，那麼 $b_1^{new} = b_2^{new}$ 。
如果 $\alpha_1^{new},\alpha_2^{new}$ 是0或者C，那麼 $b_1^{new} , b_2^{new}$ 以及他們之間的數都是符合KKT條件的閾值，這時選擇它們的中點作爲 $b^{new}$

綜上可得：
$b^{new} = \dfrac{b_1^{new} + b_2^{new}}{2} \tag{39}$

差值 $E_i$ 更新

在每次完成兩個變量的優化之後，還必須更新對應的 $E_i$ 值，並將他們保存在列表中。 $E_i$ 值的更新要用到 $b^{new}$ 值，以及所有支持向量對應的 $\alpha_j$ ：
$E_i^{new} = \sum_S y_j \alpha_j K(x_i,x_j) + b^{new} - y_i \tag{40}$

S是所有支持向量 $x_j$ 的集合。非支持向量的E值爲0。

看了很多博客，其實統計學習方法裏面的過程已經很完整，對其中一些過程做了補充，別看在求解時用了很多計算公式，其實裏面沒有很深的知識，就是變換多。

2、變量的選擇方法

SMO算法在每個子問題中選擇兩個變量優化，其中至少一個變量是違反KKT條件的。

（1）第1個變量的選擇

SMO稱選擇第1個變量的過程爲外層循環。外層循環在訓練樣本中選取違反KKT條件最嚴重的樣本點，並將其對應的變量作爲第1個變量。具體的，檢驗訓練樣本點 $(x_i,y_i)$ 是否滿足KKT條件，即：
$\begin{aligned} \alpha_i = 0 & \iff y_i g(x_i) \geq 1 \\ 0 < \alpha_i < C & \iff y_i g(x_i) = 1 \\ \alpha_i = C & \iff y_i g(x_i) \leq 1 \\ \end{aligned}$

$g(x_i) = \sum_{j=1}^N \alpha_j y_j K(x_i,x_j) + b$

該檢驗是在精度 $\epsilon$ 範圍內進行的，即在精度 $\epsilon$ 範圍內的點不選用。

在檢驗過程中，外層循環首先遍歷所有滿足條件 $0 < \alpha_i < C$ 的樣本點，即在間隔邊界上的支持向量點，檢驗它們是否滿足KKT條件。
如果這些點都滿足KKT條件，那麼就遍歷整個訓練集，檢驗它們是否滿足KKT條件。

（2）第2個變量的選擇

SMO稱選擇第2個變量的過程爲內層循環。假設在外層循環中已經找到第1個變量 $\alpha_1$ ，現在要在內層循環中找到第2個變量 $\alpha_2$ 。第2個變量選擇的標準是希望能使 $\alpha_2$ 有足夠大的變化。

由式（35a）（35）可知， $\alpha_2^{new}$ 是依賴於 $|E_1 - E_2|$ 的，爲了加快計算速度，一種簡單的做法是選擇 $\alpha_2$ ，使其對應的 $|E_1 - E_2|$ 最大。因爲 $\alpha_1$ 已定， $E_1$ 也確定了。

如果 $E_1$ 是正的，那麼選擇最小的 $E_i$ 作爲 $E_2$ ；
如果 $E_1$ 是負的，那麼選擇最大的 $E_i$ 作爲 $E_2$ ；
爲了節省計算時間，將所有 $E_i$ 值保存在一個列表中。

在特殊情況下，如果內層循環通過以上方法選擇的 $\alpha_2$ 不能使目標函數有足夠的下降，那麼採用以下啓發式規則繼續選擇 $\alpha_2$ 。

遍歷在間隔邊界上的支持向量點，依次將其對應的變量作爲 $\alpha_2$ 試用，直到目標函數有足夠的下降；
若找不到合適的 $\alpha_2$ ，那麼遍歷訓練數據集；
若仍找不到合適的 $\alpha_2$ ，則放棄第1個 $\alpha_1$ ，再通過外層循環尋找另外的 $\alpha_1$ 。

3、SMO算法

輸入：訓練數據集 $T = \{(x_1,y_1),(x_2,y_2),\cdots,(x_N,y_N)\}$ ，其中， $x_i \in {\bf R}^n,\space y_i \in \{-1,+1\},\space i =1,2,\cdots,N$ ，精度 $\epsilon$ ；

輸出：近似解 $\hat{\alpha}$ ，由於給算法設置了一個精度 $\epsilon$ ，所以最終求得是近似解。

（1）取初值 $\alpha^{(0)} = 0$ ，令 $k=0$ ；

（2）選取優化變量 $\alpha_1^{(k)},\alpha_2^{(k)}$ ，解析求解兩個變量的最優化問題（29）（31），求得最優解 $\alpha_1^{(k+1)},\alpha_2^{(k+1)}$ ，更新 $\alpha$ 爲 $\alpha^{(k+1)}$ ；

（3）若在精度 $\epsilon$ 範圍內滿足停機條件：
$\sum_{i=1}^N \alpha_i y_i = 0$
$0 \leq \alpha_i \leq C,\space i=1,2,\cdots,N$
$y_i \cdot g(x_i) = \begin{cases} \geq 1, & \{x_i|\alpha_i = 0\} \\[2ex] = 1, & \{x_i|0 < \alpha_i < C \} \\[2ex] \leq 1, & \{x_i|\alpha_i = C\} \end{cases}$

$g(x_i) = \sum_{j=1}^N \alpha_j y_j K(x_i,x_j) + b$

則轉（4）；否則令 $k = k+1$ ，轉（2）；

（4）取 $\hat{\alpha} = \alpha^{(k+1)}$ 。

對於深入研究支持向量機之前，看了一眼書，這個算法佔的篇幅最大，公式最多，難度應該不一般。研究下來確實不一般，花費六天，每天至少5小時，最終下來感覺還算是比較瞭解了。其實支持向量機的模型和策略都很簡單，模型就是一個超平面，策略就是最大化分類間隔，解決的問題從線性可分到線性近似可分，再到非線性可分；然後就是算法，對最終最優化問題的求解，爲了求解快速、少佔內存，有大牛發明了SMO算法（序列最小最優算法）。

如果是想研究支持向量機可以按我上面的總結看下來絕對沒問題，大致內容和李航的統計學方法一致，我對中間涉及的一些數學知識做了一定補充，這也是我這篇博客與課本差別之一，對一些難以理解的地方詳細展開和知識補充。這篇總結涉及的知識點很多，若有不正確的地方還望指出，以免誤導他人。

之前的學習的幾個算法都是搞懂再來做總結，支持向量機知識點太多，一下全部搞懂挺難的，是知道一點就總結一點，遇到過不去的就停下來找博客，看別人的講解，就這樣把難點逐個擊破，然後整個算法也就總結完了。這也相當於應用了SMO算法的思想，化整爲零，逐個擊破，每一個算法都是智慧的結晶。

參考資料：

$********************************************$
未完待續

07_支持向量機3_統計學習方法

文章目錄

五、SMO算法

1、兩個變量二次規劃的求解方法

（1）定義子問題

（2）確定變量範圍

（3）最優求解

（4）計算閾值b和差值E

2、變量的選擇方法

（1）第1個變量的選擇

（2）第2個變量的選擇

3、SMO算法

《Python進階》學習筆記

Leetcode 3161. 物塊放置查詢

leetcode 60 排列序列

一個docker容器暴露多個端口

微服務實踐之使用 Visual Studio 2022 調試Dapr 應用程序

wpf附加屬性理解 WPF附加屬性

07_支持向量機1_統計學習方法

07_支持向量機3_統計學習方法

12_統計學習方法總結

低配置的電腦也可以裝tensorflow2

FDDC2018_A股上市公司季度營收預測

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結