间隔与支持向量
给定数据集D={(x1,y1),(x2,y2),...,(xm,ym)},yi∈[−1,+1]训练的基本思想就是基于训练集D在样本空间找到一个划分超平面。
在样本空间中,划分超平面可通过如下线性方程来描述
WTx+b=0
其中w=(w1,w2,...,wd)为法向量,决定超平面的方向,b为位移量,决定超平面与原点治安的距离,记为(w,b)
样本空间中任意点x到超平面(w,b)的距离为:
r=∣∣w∣∣∣WTx+b∣
若将w,b等比例增大,例如2w,2b,超平面未改变,但函数间隔缺改变了,所以除以||w||。
若超平面划分正确,则有:
{wTxi+b>0,wTxi+b<0,yi=+1yi=−1
令:
{wTxi+b≥1,wTxi+b≤−1,yi=+1yi=−1
若训练样本使wTxi+b=±1,则被称为支持向量,两个异类支持向量到超平面的距离之和成为间隔。
r=∣∣w∣∣2
欲找到最大化间隔的划分超平面,即使r最大
maxw,b∣∣w∣∣2s.t.yi(wTxi+b≥1)
即:
minw,b0.5∣∣w∣∣s.t.yi(wTxi+b≥1)2
对偶问题
根据minw,b0.5∣∣w∣∣s.t.yi(wTxi+b≥1)2
f(x)=wTx+b 求解得到最大间隔划分超平面
使用拉格朗日乘子法
L(w,b,α)=21∣∣w∣∣2+i=1∑mαi(1−yi(wT+b))
如此,问题就变成了:
maxαminw,bL(w,b,α)
对L(w,b,α)的w,b求偏导并等于0.
σwσL=w−i=1∑mαiyixi=0
σbσL=i=1∑mαigi=0
代入原式中
L(w,b,α)=21(i=1∑mαiyixi)2−i=1∑mαi(1−yi(i=1∑mαiyixi∗x+b))=i=1∑mαi−21i=1∑mj=1∑mαiαjyiyjxixj
即
maxαL(w,b,α)s.t.{∑i=1mαiyi=0α≥0
maxαi=1∑mαi−21i=1∑mj=1∑mαiαjyiyjxixjs.t.{α≥0∑i=1mαiyi=0
求解
f(x)=wTx+b=i=1∑mαiyixiTxi+b
核函数
在原始样本空间内也许不存在一个能正确划分两类样本的超平面,这是,我们可以将样本从原始空间映射到一个更高维的特征空间。
令Φ(x)表示将x映射后的特征向量,则超平面为:
f(x)=wTΦ(x)+b
对应有
maxαi=1∑mαi−21i=1∑mj=1∑mαiαjyiyj(Φ(xi)∗Φ(xj))s.t.{α≥0∑i=1mαiyi=0
因为 Φ(xi)∗Φ(xj)难以计算,所以设想一个函数k
K(xi,xj)=<Φ(xi),Φ(xj)>=Φ(xi)∗Φ(xj)
我们称K<·,·>为核函数
令x为输入空间,K<·,·>是定义在xxx上的对称函数,当且仅当对于任意数据D=[X1,X2,..,xm],核矩阵k总是半正定的,k使核函数。
K=⎣⎢⎢⎢⎢⎡k(x1,x1)..k(xi,x1)..k(xm,x1)...............k(x1,xj)..k(xi,xj)..k(xm,xj)...............k(x1,xm)..k(xi,xm)..k(xm,xm)⎦⎥⎥⎥⎥⎤
常用核函数
k(xi,yi)=xiyi
k(xi,yi)=(xiyi)d
k(xi,yi)=exp(−2σ2∣∣xi−xj∣∣2)
........
软间隔和正则化
软间隔是允许某些样本不满足条件
yi(wTxi+b)≥1
于是优化目标可以写成
minw,b21∣∣w∣∣2+ci=1∑mτ0/1(yi(wTxi+b)−1)
其中C是大于0的常熟,τ0/1是0/1的损失函数
{1,0,if z<0otherwise
当C为无穷大时,则等价为硬间隔,τ0/1的数学性质不好,所以使用代替函数,常见有:
hinge损失:ιhinge(z)=max(0,1−z)
指数损失:ιexp(z)=exp(−z)
对率损失:ιlog(z)=log(1+exp(−z))
使用hinge损失,可将原始改为:
minw,b21∣∣w∣∣2+ci=1∑mmax(0,1−yi(wTxi+b))
引入松弛变量ξi≥0
minw,b,ξ1/2∣∣w∣∣2+ci=1∑mξi
s.t.yi(wTxi+b)≥1−ξi
ξi≥0
拉格朗日乘子法
L(w,b,α,ξ,μ)=1/2∣∣w∣∣2+ci=1∑mξi+i=1∑mαi(1−ξi−yi(wTxi+b))−i=1∑mμiξi
对w,b,ξ求偏导。
w=i=1∑mαiyixi
0=i=1∑mαiyi
c=αi+μi
代入:
maxαii=1∑mαi−1/2i=1∑mj=1∑mαiαjyiyixixj
s.t.i=1∑mαiyi=0
0≤αi≤c
支持向量机回归
支持向量机回归能容忍f(x)与y之间有ξ的偏差,这就相当于以f(x)为中心,构建了一个宽度为2ξ的间隔带,只有训练样本落入间隔带,则认为是正确预测。
minw,b1/2∣∣w∣∣2+ci=1∑mζe(f(xi)−yi)
其中c为正则化常数,
ζe(z)={0,∣z∣−ϵ,if∣z∣≤ϵotherwise
引入松弛变量,可改写为:
minw,b,ξi,ξ^i1/2∣∣w∣∣2+ci=1∑m(ξi+ξ^i)
s.t.f(xi)−yi≤ϵi+ξi
yi−f(xi)≤ϵi+ξ^i
ξi≥0,ξ^i≥0
引入拉格朗日乘子
L(w,b,α,α^,ξ,ξ^,μ,μ^)=1/2∣∣w∣∣2+ci=1∑m(ξ+ξ^)−i=1∑mμiξi−i=1∑mμ^iξ^i+i=1∑mαi(f(xi)−yi−ϵ−ϵi)+i=1∑mα^i(yi−f(si)−ϵ−ξ^i)
对w,b,ξi,ξ^i求偏导为零
w=i=1∑m(α^i−αi)xi
0=i=1∑m(α^i−αi)
c=αi+μi=α^i+μ^i
代入上述L(w,b,α,α^,ξ,ξ^,μ,μ^)中:
maxα,α^i=1∑m(α^i−αi)−ϵ(α^i+αi)−1/2i=1∑mj=1∑m(α^i−α)(α^j−α)xixj
s.t.i=1∑m(α^i−αi)=0
0≤(αi,α^i)≤c
核方法
定理:令H为核函数k对用的再生和希尔伯特空间,||h||H表示H空间中关于h的范数,对于任意单调递增函数 Ω:[0,∞]→R和任意非负损失函数ϑ:Rm→[0,∞],优化问题
minh∈HF(h)=Ω(∣∣h∣∣H)+ϑ(h(x1),h(x2),...,h(xm))
的解总可以写为:
h∗(x)=i=1∑mαik(x,xi)