本文针对一般性的“软判断的核函数的对偶问题的SVM”，形如下式：

上式问题所在：当采样点 $x_i$ 选取50000个点时，则基于核函数变量 $\bm{\Theta(x_i,x_j)}$ 将需要大约10GB的RAM来存储 $\bm{\Theta(x_i,x_j)}$ 。这里介绍前人所提的SMO算法，以降低存储空间。

一. 算法流程框架

首先，先给出SMO算法的算法流程，如下：

意思是：第一步，选取一对 $\alpha_i$ 和 $\alpha_j$ ，选取方法使用启发式方法。第二步，固定除 $\alpha_i$ 和 $\alpha_j$ 之外的其他参数，确定目标函数（即： $W(\alpha)$ 。图片中用 $W(\alpha)$ 表示整个目标函数）取得最大值时的 $\alpha_i^*$ 的取值，并由 $\alpha_i^*$ 计算出 $\alpha_j^*$ 。重复迭代上述两步，直到收敛。

SMO之所以高效就是因为在固定其他参数后，对一个参数优化过程很高效。

二. 符号定义与基础回顾

（1）先定义下述三个符号，以便后文表述：

（2）若为线性核函数分类，由基本二分类SVM可知，最后的分类是根据 $w^{*T}x_i+b^*$ 来判断的：若 $w^{*T}x_i+b^*>0$ 则判断 $y_i$ 属于某一类，若 $w^{*T}x_i+b^*<0$ 则判断 $y_i$ 属于另一类。如果是非线性核函数分类，则是 $w^{*T}\phi(x_i)+b^*$ 与0的大小比较（但是，在实际核函数模型中，我们没有 $\phi(\bm x_i)$ 的表达式，往往都是直接给出 $\bm{\Theta(x_i,x_j)}$ (而： $\bm{\Theta(x_i,x_j)}$ = $\phi(\bm x_i)^T\phi(\bm x_j)$ )。因此， $w^{*T}x_i+b^*$ 仅用于线性核函数中，而在非线性核函数里，并不用 $w^{*}$ 来判断分类的结果。虽然不用，但为了完整性，这里还是给出核函数下的 $w^{*}$ ）， $\bm w^*$ 的具体表达式为：

$\begin{aligned} \bm{w^*}=\sum_{i}^{}\alpha_i^*y_i\phi(\bm x_i) \end{aligned}$

而对标量 $b^*$ 的计算，书上式子(2.75)写道：

（3）符号 $E_i$ 定义如下：

$\begin{aligned} E_i &=f(\bm x_i)-y_i\\&=(\sum_{j=1}^{n}y_j\alpha_jK_{ij}+b)-y_i \\&=(\sum_{j=1}^{n}y_j\alpha_j\phi(x_j)^T\phi(x_i)+b)-y_i \\&=(w^{*T}\phi(x_i)+b)-y_i \end{aligned}$

显然， $E_i$ 是函数 $f(x)$ 对输入 $x_i$ 的预测值与真实输出值 $y_i$ 之差。（备注：1998年原始参考文献中，预测值 $f(x_i)$ 用 $u_i$ 表示的，即 $E_i=u_i-y_i$ ）

三. 整理目标函数

四. $\alpha_2^{new}$ 的推导(不考虑范围约束时)

由于下述约束条件成立：

因此，有

其中， $C'$ 是常数。根据式子(2.142)，可知：
$\begin{aligned} \alpha_1 = \gamma -s\alpha_2 \end{aligned}$

其中 $\gamma=C'y_1$ 、 $s=y_1y_2$ （因为 $y_1$ 只能取+1或-1，因此，除以 $y_1$ 等价于乘以 $y_1$ ）。带入消除 $\alpha_1$ 后，我们可将式子(2.141)重新整理为下式：

将上式对 $\alpha_2$ 求导，并令其为0，得到下式：

解出上式中的 $\alpha_2$ 为：

上式(2.145)中， $\alpha_2$ 有个上角标，是表示此为更新后的 $\alpha_2$ ，或者说是最优的 $\alpha_2$ ，用 $\alpha_2^{new}$ 表示。

上式经过下面照片中的推导可以化简，详细推导过程见照片(可省略不看)：

推导结果为：（此结果也是1998年中论文的结果）

五. $\alpha_2^{new,revised}$ 的推导

显然，上述分析没有考虑式子(2.97)的约束条件，换句话说， $\alpha_2^{new}$ 很可能不在指定区域 $[0,C]$ 内，而由于此时已经转化为一元函数求极值问题，所有，如果极点不在区域内，那么最值一定取在边界点，所有，最优的 $\alpha_2$ 的取值不再是 $\alpha_2^{new}$ ，应该换符号表示，文中采用 $\alpha_2^{new,revised}$ 表示考虑式子(2.97)中约束的新更新变量。故为了分析式子(2.97)的约束条件，有下述两个公式：

（1）当 $y_1$ 与 $y_2$ 同号时

（2）当 $y_1$ 与 $y_2$ 异号时

解释一下上述公式：
首先将式子(2.142)两侧同时乘以 $y_1$ ，由于 $y_1$ 只能取正负1，故，分类讨论：
（1）解释：当 $y_1$ 与 $y_2$ 同号，所以有：
$\begin{aligned} \alpha_1+\alpha_2=\gamma \end{aligned}$

由于 $\alpha_1$ 与 $\alpha_2$ 只能取[0,C]之间的box内，所以，此时有两种情况，如图：

（2）解释：当 $y_1$ 与 $y_2$ 异号时，有：

综合上述两种情况，我们有：

此时得到的 $\alpha_2^{new,revised}$ 是完全符合题意的最优的 $\alpha_2$ 值！下面回带如公式，反求最优的 $\alpha_1$ 。

六. $\alpha_1^{new}$ 的推导

由于式子 (2.142)成立(且，算法流程中已提及，叠代 $\alpha_1$ 与 $\alpha_2$ 时，需要固定其余参数，即 $\alpha_3$ 到 $\alpha_n$ 是固定不变的，只叠代 $\alpha_1$ 与 $\alpha_2$ )，因此，迭代前后的 $\alpha_1$ 与 $\alpha_2$ 都满足下式：

$\begin{aligned} y_1\alpha_1^{old}+y_2\alpha_2^{old}=C' \end{aligned}$

$\begin{aligned} y_1\alpha_1^{new}+y_2\alpha_2^{new}=C' \end{aligned}$

所以有：

$\begin{aligned} y_1\alpha_1^{old}+y_2\alpha_2^{old}=y_1\alpha_1^{new}+y_2\alpha_2^{new} \end{aligned}$

上述左右同时乘以 y1，可解出 $\alpha_1^{new}$ 如下：

七. KKT条件

下式KKT条件中的 $f(x_i)$ ，代表在当前 $w$ 这个分类准则下，输入为 $x_i$ 时，输出的分类预测结果。

（但我不太清楚这个是怎么推出来的，求解释）这个KKT条件说明，在两条间隔线外面的点，对应前面的系数 $\alpha_i$ 为0（即距离线很远且不起作用的点），在两条间隔线里面的对应 $\alpha_i$ 为C，在两条间隔线上的对应的系数 $\alpha_i$ 在0和C之间。

八. $b$ 的推导

（1）先说结论：

（2）再说结论的证明过程：

之所以要更新 $E_i$ ，是因为这个变量有两个作用，一是用以作为第二个乘子的选取因子；二是用以作为判断算法终止的条件！

九. SMO应用流程

下面是SMO算法详细流程，该流程比本文第一节中的要详细，可用于实际应用中：

其中，用启发式算法选取点的原则为：

十. 其余说明：

（1）论文中说，如果采用的是线性核函数，那么久按照如下方式更新 $\bm w^{new}$ ：

$\begin{aligned} \bm w^{new}=\bm w+y_1(\alpha_1^{new}-\alpha_1)\bm x_1+y_2(\alpha_2^{new,revised}-\alpha_2)\bm x_2 \end{aligned}$

上式的结论依据以下两个公式便可得到：

看完这句话以后我误会了好久，仔细看公式才发现，之所以文中说“线性核函数”才更新 $\bm w^{new}$ ，是因为这里的更新公式中没有 $\phi(.)$ ，换言之，并不是 $\bm w$ 只能用于线性，而是这里的公式没有加核，所以，这个公式里的 $\bm w$ 只能用于线性。若改为下式，则任何满足题意的核，都可以用此式来分类：

$\begin{aligned} \bm w^{new}=\bm w+y_1(\alpha_1^{new}-\alpha_1)\bm \phi(x_1)+y_2(\alpha_2^{new,revised}-\alpha_2)\bm \phi(x_2) \end{aligned}$

（按照更新 $\alpha_1$ 与 $\alpha_2$ 的方式，来更新所有需要更新的 $\alpha_i$ ，全部训练并更新完后，便可将该模型用于分类，最终的 $\bm w^{new}$ 可按照上述更新两个参数的方式来推导，但是正如前文所述说，实际中直接给出的是 $\bm{\Theta(x_i,x_j)}$ 的矩阵取值（ $\bm{\Theta(x_i,x_j)}$ = $\phi(\bm x_i)^T\phi(\bm x_j)$ ），并非 $\phi(\bm x_i)$ 。因此，非线性核函数下的 $\bm w^{new}$ 没有实际用处，仅用于求解 $b^{new}$

（2）另外一个待更新资料：

下文中，迭代的终止条件是两次叠代的 $\alpha_{old}$ 与 $\alpha_{new}$ 所对应的 $f_i^{old}$ 与 $f_i^{new}$ 之间的数值小于某个数时，则终止叠代。毕竟选取的 $\alpha_1$ 都是那些不满足KKT条件的，当都满足以后，自然每次叠代 $\alpha$ 后，其 $f$ 改进就会很小了。

算法中，各个所需的阿尔法求解完毕后（即样本训练结束以后），最终应用时分类的原则为：

参考资料：
[1] 《Sequential Minimal Optimization:
A Fast Algorithm for Training Support Vector Machines》作者：John C. Platt 时间：1998 （SMO原文）
[2] 《Selected Applications of Convex Optimization》作者：Li Li
[3] 学习网址1
[4] 学习网址2
[5] SMO算法的matiab代码下载网址1
[6] SMO算法的matiab代码下载网址2

SMO算法详细推导（Sequential Minimal Optimization）

一. 算法流程框架

二. 符号定义与基础回顾

三. 整理目标函数

四. $\alpha_2^{new}$ 的推导(不考虑范围约束时)

五. $\alpha_2^{new,revised}$ 的推导

六. $\alpha_1^{new}$ 的推导

七. KKT条件

八. $b$ 的推导

九. SMO应用流程

十. 其余说明：

钉钉打卡速度慢

Nginx R31 doc 官方文档-01-nginx 如何安装

Qt/C++音视频开发74-合并标签图形/生成yolo运算结果图形/文字和图形合并成一个/水印滤镜

挑战程序设计竞赛 2.2章习题 POJ - 3617 Best Cow Line 贪心

字节面试：MySQL什么时候锁表？如何防止锁表？

.NET8连接SQL SERVER 2008 R2 报：证书链是由不受信任的颁发机构颁发的

golang开发环境搭建(win10)

python计算机视觉学习笔记——PIL库的用法

Golang初学：获取程序内存使用情况，std runtime

徑向基函數插值(待更新....

design and analysis of computational and physical experiments

SMO算法詳細推導（Sequential Minimal Optimization）

矩陣的Cholesky分解

變分法原理

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

SMO算法详细推导（Sequential Minimal Optimization）

一. 算法流程框架

二. 符号定义与基础回顾

三. 整理目标函数

四. α2new\alpha_2^{new}α2new​的推导(不考虑范围约束时)

五. α2new,revised\alpha_2^{new,revised}α2new,revised​的推导

六. α1new\alpha_1^{new}α1new​的推导

七. KKT条件

八. bbb的推导

九. SMO应用流程

十. 其余说明：

四. $\alpha_2^{new}$ 的推导(不考虑范围约束时)

五. $\alpha_2^{new,revised}$ 的推导

六. $\alpha_1^{new}$ 的推导

八. $b$ 的推导