笔记(总结)-SVM(支持向量机)的理解-1

原創

2020-02-24 03:56

SVM即支持向量机作为神经网络复兴前的最强大模型，建模和推导有着严密的数学推导作为基础，在训练完成后计算速度也较快，得到了广泛的应用。本文先阐述SVM的基本问题和推导过程，再引入软间隔的SVM，最后引入核函数和求解方法。

问题引入

考虑简单的二分类问题，我们想找一个“最好”的超平面来分隔两类样本。可以看到，在样本点线性可分的情况下，能够找到多个超平面。但其中黑色超平面直观上来看是最合理的，所有样本点到黑色超平面的距离都比较远。新来一个样本时，由于噪声或训练集局限性（采样）等因素，新样本可能更加接近超平面，导致分类错误，而黑色超平面受的影响最小，因为所有样本到它的距离都比较远，泛化能力最强。

样本空间中，超平面方程如下：

w^{T} x + b = 0

样本空间中任意一点 $x_{0}$ 到超平面的距离为：

r = \frac{| w^{T} x_{0} + b |}{| | w | |}

如何描述这个“最好”的超平面？我们引入两条“间隔”超平面作为“楚河汉界”，现在我们的目标变为：在满足所有样本点位于边界外的基础上（分类正确），使“楚河汉界”最宽（泛化能力最强）。

我们取两条间隔线为 $w^{T} x + b = \pm k$ ，在任意间隔线上取一点，到另一间隔线的距离即为“楚河汉界”宽度，等于 $d = \frac{2 k}{| | w | |}$ ，此时我们的目标变为：

max d

s . t . w^{T} x + b \geq k, y = 1

w^{T} x + b \leq - k, y = - 1

由于目标为最大间隔，而 $k$ 相当于衡量宽度的一个尺度，取不同尺度只会改变目标函数的优化程度，为了之后模型推导的方便，取 $k = 1$ 。目标等价变为：

m i n \frac{1}{2} {| | w | |}^{2}

s . t . y_{i} (w^{T} x + b) \geq 1, \forall x_{i}

在该问题中，约束条件为仿射函数，为凸二次规划问题，可以直接求解。但推导得到等价的对偶问题后，可以更高效地求解。

拉格朗日乘数法与对偶问题

不失一般性，定义原问题 $p^{*}$ 如下:

min f (w)

s . t . g_{i} (w) \leq 0

构造拉格朗日函数：

L (w, α) = f (w) + \sum_{i} α_{i} g_{i} (w)

定义：

θ_{p} (w) = max_{α_{i} \geq 0} L (w, α)

有：

θ_{p} (w) = {\begin{cases} f (w) & 限 制 满 足 \\ + \infty & 限 制 不 满 足 \end{cases}

在 $α_{i} \geq 0$ 的前提下，若不满足 $g_{i} (w) \leq 0$ ，可取不满足的约束，取对应 $α_{i}$ 为无穷，则函数为无穷。此时原问题 $p^{*}$ 的等价表述为：

min f (w) = min θ_{p} (w) = min max_{α_{i} \geq 0} L (w, α) 即 为 p^{*}

得到对偶问题 $d^{*}$ 为：

max_{α_{i} \geq 0} min L (w, α) = max_{α_{i} \geq 0} θ_{D} (w) 令 为 d^{*} 其 中 θ_{D} (w) = min L (w, α)

当满足KKT条件时：

{\begin{cases} α_{i} \geq 0 \\ g_{i} (w) \leq 0 \\ α_{i} g_{i} (w) = 0 \end{cases}

原问题和对偶问题有相同的解。

SVM对偶问题

回到SVM原问题 $p^{*}$ :

m i n \frac{1}{2} {| | w | |}^{2}

s . t . y_{i} (w^{T} x + b) \geq 1, \forall x_{i}

构造拉格朗日算子，显然有：

f (w) = \frac{1}{2} | | w | |^{2}

g_{i} (w) = 1 - y_{i} (w^{T} x_{i} + b) \leq 0

L (w, α) = f (w) + \sum_{i} α_{i} g_{i} (w)

通过解对偶问题来解原问题

max_{α_{i} \geq 0} min L (w, α) = max_{α_{i} \geq 0} θ_{D} (w) 其 中 θ_{D} (w) = min_{w, b} L (w, α)

对于 $L (w, α)$ ，极值在偏导为0处取到(注意此时 $L 只是关于 w 和 b 的函数$ )，令：

\frac{\partial L}{\partial w} = 0, \frac{\partial L}{\partial b} = 0

得到：

w = \sum_{i} α_{i} y_{i} x_{i}, \sum_{i} α_{i} y_{i} = 0

将 $w$ 代回 $L$ ，得到：

min_{w, b} L = \sum_{i} α_{i} - \frac{1}{2} \sum_{i} \sum_{j} α_{i} α_{j} y_{i} y_{j} x_{i}^{T} x_{j}, 记 为 W (α)

可以看到 $L$ 只是关于 $α$ 的函数，对偶问题即为：

d^{*} = max W (α)

s . t . α_{i} \geq 0, \sum_{i} α_{i} y_{i} = 0

此时回过头来，我们看KKT条件，易得若 $α_{i} > 0$ ，则有 $g_{i} (w) = 0$ ，即 $y_{i} (w^{T} x_{i} + b) = 1$ ， $x_{i}$ 位于间隔超平面上，我们称这样的样本为支持向量。当我们求解得到 $α_{i}$ 代入后，由 $w = \sum_{i} α_{i} y_{i} x_{i}$ 即可得到 $w$ ，由任意一支持向量均满足 $g_{i} (w) = 0$ ，将 $w, x_{i}, y_{i}$ 代入即可得到 $b$ ，最终判别函数为：

f (x) = w^{T} x + b = (\sum_{i} α_{i} y_{i} x_{i}^{T}) x + b = \sum_{i} α_{i} y_{i} (x_{i}^{T} x) + b

对于所有非支持向量的样本，有 $α_{i} = 0$ ，即在最终的判别函数中只有支持向量起作用，故SVM可以看做一系列支持向量的“加权和”构成的模型。

本文总结了SVM的建模来由、对偶问题和模型推导过程，最终得到了SVM对偶问题的形式和判别函数。其余内容下文再续。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

笔记(总结)-SVM(支持向量机)的理解-1

问题引入

拉格朗日乘数法与对偶问题

SVM对偶问题

筆記(總結)-SVM(支持向量機)的理解-3

筆記(總結)-SVM(支持向量機)的理解-4

筆記(總結)-XGBoost的前世今生

筆記(總結)-SVM(支持向量機)的理解-1

筆記(總結)-PCA(主成分分析)

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結