間隔的直觀理解

1. 間隔的直觀理解

這一章從“間隔”這個概念開始講述SVM(支持向量機)模型。本文會以實際的例子讓讀者對於“間隔”的概念有一個更清晰直觀的理解。我們會將前兩節總結的思想在第三節通過數學語言來描述。

對於logistic分類模型,由公式hθ(x)=g(θTx) 計算條件概率p(y=1|x;θ) 。只有在hθ(x)0.5 我們會預測y=1,等價於θTx0 時y=1。對單個正樣本(y=1)而言,θTx 的值越大,條件概率p(y=1|x;θ) 就越大,那我們就更“確信”這個樣本標記爲1。這樣模型就有一個很好的優化方向,尋找參數θ 使得當y(i)=1θTx>>0 ,同理當y(i)=0 時使θTx<<0 ,這反映我們對訓練樣本分類結果的確定性。我們將會通過函數間隔來刻畫這個思想。

注意看下面這張圖,叉叉代表正樣本,圓圈代表負樣本。我們畫出了一條決策線(也可稱爲分離超平面,其上的點滿足θTx=0 )。我們標出了三個示範點A、B、C。

這裏寫圖片描述

可以很容易的發現A點離決策線很遠,而C點離決策線很近。我們可以很有信心的說A是一個正樣本(y=1),但C點就不太確定了,決策線的參數只需稍有改變,C點就極有可能變成負樣本(y=0)。B點相對決策線的距離在A、C之間,我們對它的確信度也在A、C之間。整理一下思路,我們需要找到一條直線使得直線兩邊的點到它的距離都儘可能的遠,這樣我們才能確信自己的判斷。我們之後會以物理間隔這個概念來描述此問題。

標記符

之後支持向量機的討論中,我們將使用一組新的標記符。對於二分類問題中的線性分類器,標註記爲y ,特徵爲x 。我們令y的值域爲y{1,1} (而非{0,1} )。同時模型參數的標記從向量θ 變爲w,b 。公式即改寫爲:

hw,b(x)=g(wTx+b)

對於函數g ,當z0g(z)=1 ,當z0g(z)=1 。當前w,b 組合的標記符有利於我們將截距項b 從衆多參數中分離出來。
還有一點需要注意,從函數g 的定義可以看出這個分類器會直接預測1或-1,這一點和感知器模型是一致的。而不是像logisitc分類器先求解y=1的條件概率P(y=1|θ;x) 後再做判斷

函數間隔和物理間隔

這一節將正式給出函數間隔和物理間隔的數學定義。對某一給定訓練樣本(x(i),y(i)) ,我們定義其函數間隔爲

γ^(i)=y(i)(wTx(i)+b)

從上式可以看出,當y(i)=1 時要使函數間隔變大,只需增大wTx+b 。同理當y(i)=1 只需減小wTx+b 函數間隔就會增大。同時當y(i)(wTx(i)+b)0 即代表我們預測正確。因此足夠大的函數間隔表示這是一個置信度很高的正確預測。

對於某一給定訓練集S={(x(i),y(i));i=1,,m} ,我們定義訓練集中最小函數間隔記爲γ^

γ^=mini=1,,mγ^(i)

但是用函數間隔描述置信度存在一個問題,如果我們將參數從(w,b) 替換成(2w,2b) 那麼函數間隔會擴大一倍,但實際並不能增加置信度。直覺告訴我們,這裏可能需要有一個歸一化條件比如w2=1 ,將(w,b) 替換成(w/w2,b/w2) 再來計算函數間隔,這就引出了幾何間隔的概念。我們接下來討論幾何間隔,看下圖:

這裏寫圖片描述

我們畫出了決策線,易見w 同決策線正交(垂直)。點A是一個輸入爲x(i) 標記爲y(i)=1 的正樣本。它到決策線的距離γ(i) 就是線段AB。我們如何確定γ(i) 的數值呢?首先w/ww 的單位向量,點A的座標爲x(i) 那麼點B的座標可表示爲x(i)γ(i)w/w ,又點B在決策線上則有:

wT(x(i)γ(i)ww)+b=0

求解方程得:

γ(i)=wTx(i)+bw=(ww)Tx(i)+bw.

這就是幾何間隔的數學公式。當w=1 時,幾何間隔和函數間隔相等。從公式中可以發現參數的縮放不會影響幾何間隔的大小。

最後,對於某一給定訓練集S={(x(i),y(i));i=1,,m} ,我們定義訓練集中最小几何間隔記爲γ

γ=mini=1,,mγ(i)

本文主要內容來自吳恩達老師網易公開課機器學習中的課件,本人自行翻譯並重新對文章進行編輯排版,轉載請註明出處

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章