間隔與支持向量
給定數據集D={(x1,y1),(x2,y2),...,(xm,ym)},yi∈[−1,+1]訓練的基本思想就是基於訓練集D在樣本空間找到一個劃分超平面。
在樣本空間中,劃分超平面可通過如下線性方程來描述
WTx+b=0
其中w=(w1,w2,...,wd)爲法向量,決定超平面的方向,b爲位移量,決定超平面與原點治安的距離,記爲(w,b)
樣本空間中任意點x到超平面(w,b)的距離爲:
r=∣∣w∣∣∣WTx+b∣
若將w,b等比例增大,例如2w,2b,超平面未改變,但函數間隔缺改變了,所以除以||w||。
若超平面劃分正確,則有:
{wTxi+b>0,wTxi+b<0,yi=+1yi=−1
令:
{wTxi+b≥1,wTxi+b≤−1,yi=+1yi=−1
若訓練樣本使wTxi+b=±1,則被稱爲支持向量,兩個異類支持向量到超平面的距離之和成爲間隔。
r=∣∣w∣∣2
欲找到最大化間隔的劃分超平面,即使r最大
maxw,b∣∣w∣∣2s.t.yi(wTxi+b≥1)
即:
minw,b0.5∣∣w∣∣s.t.yi(wTxi+b≥1)2
對偶問題
根據minw,b0.5∣∣w∣∣s.t.yi(wTxi+b≥1)2
f(x)=wTx+b 求解得到最大間隔劃分超平面
使用拉格朗日乘子法
L(w,b,α)=21∣∣w∣∣2+i=1∑mαi(1−yi(wT+b))
如此,問題就變成了:
maxαminw,bL(w,b,α)
對L(w,b,α)的w,b求偏導並等於0.
σwσL=w−i=1∑mαiyixi=0
σbσL=i=1∑mαigi=0
代入原式中
L(w,b,α)=21(i=1∑mαiyixi)2−i=1∑mαi(1−yi(i=1∑mαiyixi∗x+b))=i=1∑mαi−21i=1∑mj=1∑mαiαjyiyjxixj
即
maxαL(w,b,α)s.t.{∑i=1mαiyi=0α≥0
maxαi=1∑mαi−21i=1∑mj=1∑mαiαjyiyjxixjs.t.{α≥0∑i=1mαiyi=0
求解
f(x)=wTx+b=i=1∑mαiyixiTxi+b
核函數
在原始樣本空間內也許不存在一個能正確劃分兩類樣本的超平面,這是,我們可以將樣本從原始空間映射到一個更高維的特徵空間。
令Φ(x)表示將x映射後的特徵向量,則超平面爲:
f(x)=wTΦ(x)+b
對應有
maxαi=1∑mαi−21i=1∑mj=1∑mαiαjyiyj(Φ(xi)∗Φ(xj))s.t.{α≥0∑i=1mαiyi=0
因爲 Φ(xi)∗Φ(xj)難以計算,所以設想一個函數k
K(xi,xj)=<Φ(xi),Φ(xj)>=Φ(xi)∗Φ(xj)
我們稱K<·,·>爲核函數
令x爲輸入空間,K<·,·>是定義在xxx上的對稱函數,當且僅當對於任意數據D=[X1,X2,..,xm],核矩陣k總是半正定的,k使核函數。
K=⎣⎢⎢⎢⎢⎡k(x1,x1)..k(xi,x1)..k(xm,x1)...............k(x1,xj)..k(xi,xj)..k(xm,xj)...............k(x1,xm)..k(xi,xm)..k(xm,xm)⎦⎥⎥⎥⎥⎤
常用核函數
k(xi,yi)=xiyi
k(xi,yi)=(xiyi)d
k(xi,yi)=exp(−2σ2∣∣xi−xj∣∣2)
........
軟間隔和正則化
軟間隔是允許某些樣本不滿足條件
yi(wTxi+b)≥1
於是優化目標可以寫成
minw,b21∣∣w∣∣2+ci=1∑mτ0/1(yi(wTxi+b)−1)
其中C是大於0的常熟,τ0/1是0/1的損失函數
{1,0,if z<0otherwise
當C爲無窮大時,則等價爲硬間隔,τ0/1的數學性質不好,所以使用代替函數,常見有:
hinge損失:ιhinge(z)=max(0,1−z)
指數損失:ιexp(z)=exp(−z)
對率損失:ιlog(z)=log(1+exp(−z))
使用hinge損失,可將原始改爲:
minw,b21∣∣w∣∣2+ci=1∑mmax(0,1−yi(wTxi+b))
引入鬆弛變量ξi≥0
minw,b,ξ1/2∣∣w∣∣2+ci=1∑mξi
s.t.yi(wTxi+b)≥1−ξi
ξi≥0
拉格朗日乘子法
L(w,b,α,ξ,μ)=1/2∣∣w∣∣2+ci=1∑mξi+i=1∑mαi(1−ξi−yi(wTxi+b))−i=1∑mμiξi
對w,b,ξ求偏導。
w=i=1∑mαiyixi
0=i=1∑mαiyi
c=αi+μi
代入:
maxαii=1∑mαi−1/2i=1∑mj=1∑mαiαjyiyixixj
s.t.i=1∑mαiyi=0
0≤αi≤c
支持向量機迴歸
支持向量機迴歸能容忍f(x)與y之間有ξ的偏差,這就相當於以f(x)爲中心,構建了一個寬度爲2ξ的間隔帶,只有訓練樣本落入間隔帶,則認爲是正確預測。
minw,b1/2∣∣w∣∣2+ci=1∑mζe(f(xi)−yi)
其中c爲正則化常數,
ζe(z)={0,∣z∣−ϵ,if∣z∣≤ϵotherwise
引入鬆弛變量,可改寫爲:
minw,b,ξi,ξ^i1/2∣∣w∣∣2+ci=1∑m(ξi+ξ^i)
s.t.f(xi)−yi≤ϵi+ξi
yi−f(xi)≤ϵi+ξ^i
ξi≥0,ξ^i≥0
引入拉格朗日乘子
L(w,b,α,α^,ξ,ξ^,μ,μ^)=1/2∣∣w∣∣2+ci=1∑m(ξ+ξ^)−i=1∑mμiξi−i=1∑mμ^iξ^i+i=1∑mαi(f(xi)−yi−ϵ−ϵi)+i=1∑mα^i(yi−f(si)−ϵ−ξ^i)
對w,b,ξi,ξ^i求偏導爲零
w=i=1∑m(α^i−αi)xi
0=i=1∑m(α^i−αi)
c=αi+μi=α^i+μ^i
代入上述L(w,b,α,α^,ξ,ξ^,μ,μ^)中:
maxα,α^i=1∑m(α^i−αi)−ϵ(α^i+αi)−1/2i=1∑mj=1∑m(α^i−α)(α^j−α)xixj
s.t.i=1∑m(α^i−αi)=0
0≤(αi,α^i)≤c
核方法
定理:令H爲核函數k對用的再生和希爾伯特空間,||h||H表示H空間中關於h的範數,對於任意單調遞增函數 Ω:[0,∞]→R和任意非負損失函數ϑ:Rm→[0,∞],優化問題
minh∈HF(h)=Ω(∣∣h∣∣H)+ϑ(h(x1),h(x2),...,h(xm))
的解總可以寫爲:
h∗(x)=i=1∑mαik(x,xi)