1. 間隔與支持向量
對於用於分類的支持向量機,它是個二分類的分類模型。也就是說,給定一個包含正例和反例(正樣本點和負樣本點)的樣本集合,支持向量機的目的就是基於訓練集D在樣本空間找到一個劃分超平面,將不同類別的樣本分開,原則是使正例和反例之間的間隔最大。如下圖所示:
在樣本空間中,劃分超平面可通過如下線性方程來描述:
其中w=(w1;w2;w3;…wn)爲法向量,決定了超平面的方向;b爲位移項,決定了超平面與原點之間的距離。
若樣本被超平面成功分開,則在H1: y = wTx + b=+1 和 H2: y = wTx + b=-1這兩條線上的樣本點稱爲“支持向量”,兩個異類支持向量到超平面的距離之和稱爲“間隔”。
而SVM思想就是:試圖尋找一個超平面來對樣本進行分割,把樣本中的正例和反例用超平面分開,但是不是很敷衍地簡單的分開,而是盡最大的努力使正例和反例之間的間隔相等且最大。
H1和H2的距離就是|1+1|/ sqrt(w12+w12)=2/||w||。也就是w的模的倒數的兩倍。也就是說,我們需要最大化margin=2/||w||,爲了最大化這個距離,我們應該最小化||w||,並且保證沒有數據點分佈在H1和H2之間。所以我們的問題就轉化成了:
這就是支持向量機的基本型。