SVM原理推导

SVM原理推导

原創

2018-11-30 13:26

最近看了下SVM的原理推导，写些我自己的理解。

SVM(Support Vector Machine)指的是支持向量机，是常见的一种判别方法。在机器学习领域，是一个有监督的学习模型，通常用来进行模式识别、分类以及回归分析。

先看一张图片

分类学习的最基本的思想就是基于训练集D在样本空间中找到一个划分超平面，将不同类别的样本分开. 但能将训练样本分开的超平面可能有很多，如上图，最好是红色的那个，因为该划分超平面对样本局部扰动的“容忍”性最好。

优化目标
通俗讲，就是找到一个超平面或线，使得离该面或线最近的点能够最远。（这就是优化的核心，反复琢磨这句话）

数据集
D = {（x1,y1）,（x2,y2），（x3,y3），…,（xm,ym）}, yi ∈ {-1，+1}

决策方程：

其中W={w1;w2;…wd}是法向量,决定了超平面的方向，b为位移项，决定了超平面与原点之间的距离。

距离方程：

决策方程满足：

样本中任意点x到超平面的距离可写成：

目标函数：

放缩变换
对于决策方程（w,b）通过放缩使其结果值Y>=1

目标函数通过放缩变换简化为：

当前目标：

极大值问题转换为极小值问题

拉格朗日乘子法求解

分别对w和b求偏导，分别得到两个条件（由于对偶性质）

结果带入原式得到
然后对 α 求极大值，满足以下条件：

极大值转换为极小值

同理求 α 的最小值带入w偏导式便求得w,然后把w带入决策方程得到b
综上便求得平面方程啦

soft-margin

软间隔：有时候数据中有一些噪音点，如果考虑它们，得到的超平面就不好了

如图，如果按照以上推理，我们得到的如实线所示，但实际中虚线的效果会更好。为了解决这个问题，引入松弛因子

新的目标函数：

其中，C是我们需要指定的一个超参数，当C趋近于很大时：意味着分类严格不能有错误，当C趋近于很小时：意味着可以有更大的错误容忍。