支持向量機（1）-概念及推導

原創

zizi7

2020-06-16 13:40

之前一篇文章《Andrew機器學習課程筆記（3）—— K均值、SVM、PCA》有分析過SVM，但感覺不夠系統，也沒有算法落地

本篇及下一篇從“概念及推導”和“算法實現”兩個方面討論SVM
本篇包含：SVM基本概念、線性可分SVM、非線性可分SVM、帶有鬆弛變量的SVM

概念

支持向量機（SVM）是一種二類分類模型，其基本目標是找到一個分類平面，使得兩邊的特徵點與之距離（margin）最大。

　　　　　　　　　　
　　　　　　　　　　　　　　　圖1-1. 二維空間線性SVM

圖1-1中落在藍色邊界的樣本稱爲支撐向量

對於非線性可分的情況，SVM通過引入核函數，將樣本映射到高維空間實現分類。
SVM一直被認爲是效果最好的現成可用的分類算法之一

線性可分SVM

目標函數推導

考慮線性分類器的超平面方程

f (x) = W T X + b = 02 (1)

使用sign的激活函數

y = s i g n (f (x)) = {1, - 1, W T X + b > 0 W T X + b < 0 2 (2)

由此可以得到樣本點到分類面的函數間隔（functional margin）

γ f = y (W T X + b) = y f (x) 2 (3)

乘上y可以保證間隔的非負性
同時，由點面距離可以得到幾何間隔（geometrical margin）

γ g = y γ = γ f | | W | | 2 (4)

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
幾何間隔的推導
參考文章《支持向量機: Maximum Margin Classifier》的評論
令

x 垂直投影到超平面的點爲

x0 ，

γ 爲

x 到

x0 的距離標量

x = x 0 + γ w | | w | | 2 (5)

等式(5)兩邊左乘

wT ，得

wTx=wTx0+γwTw||w|| ，
又因爲

wTx=f(x)−b ，代入，得

f(x)=wTx0+b+γwTw||w||=f(x0)+γwTw||w|| ，
而

f(x0)=0 ，得

f(x)=γwTw||w||
於是有

γ=f(x)||w|| ，左乘

y 確保非負性，有

γg=yγ=yf(x)||w||=γf||w||
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

可以看到，幾何間隔較函數間隔多了一個縮放因子||W|| ，從而避免了 w 和 b 等比例縮放給測量值帶來的影響

由此確定 SVM 的目標函數

m a x (γ g), 2 s . t . y i (w T x i + b) \geq γ f 2 (6)

爲了計算方便，固定

γf=1 ，得SVM最終目標函數

m a x (1 | | w | |), 2 s . t ., y i (w T x i + b) \geq 12 (7)

目標函數求解

爲了方便，將SVM目標函數(7)做等價變形

m i n (1 2 | | w | | 2), 2 s . t ., y i (w T x i + b) \geq 12 (8)

根據拉格朗日乘子法，(8)式可以變爲求(9)式的極值

L (w, b, a) = 1 2 | | w | | 2 - \sum i = 1 n a i (y i (w T x i + b) - 1) 2 (9)

對

w 、

b 和

ai 求偏導，有

⎧ ⎩ ⎨ ⎪ ⎪ ⎪ ⎪ \partial L \partial w = w - \sum n i = 1 a i y i x i \partial L \partial b = \sum n i = 1 a i y i \partial L \partial a i = y i w T x i + y i b - 1 2 (10)

令各偏導爲0，得

⎧ ⎩ ⎨ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ w = \sum n i = 1 a i y i x i 0 = \sum n i = 1 a i y i b = 1 y j - \sum n i = 1 a i y i (x i . x j) 2 = y j - \sum n i = 1 a i y i (x i . x j) 2 (11)

這裏

yi=1yi 是因爲

yi={−1,1}

事實上我們將式(11)中的 w 代入式(1)，會有

f (x) = (\sum i = 1 n a i y i x i) x + b 2 = \sum i = 1 n a i y i < x i, x > + b 2 (12)

也就是說，對於新點

x 的預測，只需要計算其與訓練數據點的內積即可

此外，非支持向量點對應的 ai ，其實取值爲0。因爲這些點對超平面沒影響。

非線性可分SVM

參考文章《支持向量機: Kernel》，考慮如圖2-1所示的數據分佈

　　　　　　　　　　　　　　
　　　　　　　　　　　　　　　圖2-1. 兩類數據無法用線性分類器分類

圖1-2理想的分類面爲 a1x1+a2x21+a3x2+a4x22+a5x1x2+a6=0

爲了實現線性可分，可以將2維數據映射到5維：

⎧ ⎩ ⎨ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ z 1 = x 1 z 2 = x 21 z 3 = x 2 z 4 = x 22 z 5 = x 1 x 2 2 (13)

於是有線性形式

\sum i = 1 5 a i z i + a 6 = 02 (14)

因此對於非線性可分的情況，理論上首先將數據做適當升維即可（對比式(12)）

f (x) = \sum i = 1 n a i y i < ϕ (x i), ϕ (x) > + b 2 (15)

但這樣一來會遇到“維數爆炸”的問題（高斯核會將數據升到無窮維），導致計算量急劇升高

SVM核函數的做法是：在原始維度以某種函數做運算，確保與升維內積一個效果

K (x 1, x 2) = (< x 1, x 2 > + 1) 2 2 (16)

常用的核函數：

多項式核
$K (x 1, x 2) = (< x 1, x 2 > + R) d$
2 維度映射 Rm−>Rm+d
高斯核

K(x1,x2)=e−||x1−x2||22σ2

2 維度映射 Rm−>∞ ，
- 如果 σ 很大，高次特徵的權重衰減的很快，近似於映射到一個低維空間
- 如果 σ 很小，則可以將任意數據映射爲線性可分。但有可能出現過擬合問題
- 因此通過調節 σ ，高斯核具有相當高的靈活性。是使用最廣泛的核函數之一
線性核
$K (x 1, x 2) = < x 1, x 2 >$
退化爲線性SVM

帶有鬆弛變量的SVM

由於不可避免的噪聲，有些數據會偏離正常位置很遠，給SVM分類平面帶來很大影響（圖3-1）

　　　　　　　　　　　　　
　　　　　　　　　　　　　圖3-1. 被黑圈包圍的藍點是異常點（outlier），需要被排除

如式(17)所示，引入一個鬆弛變量 ξi

m i n (1 2 | | w | | 2 + C \sum i = 1 n ξ i) s . t ., {y i (w T x i + b) \geq 1 - ξ i ξ i \geq 0 2 (17)

參考

【1】Free Mind 支持向量機系列
【2】支持向量機(Support Vector Machines-SVM)算法筆記(一)-Python

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

支持向量機（1）-概念及推導

概念

線性可分SVM

目標函數推導

目標函數求解

非線性可分SVM

帶有鬆弛變量的SVM

參考

AI 畫圖真刺激，手把手教你如何用 ComfyUI 來畫出刺激的圖

公司剛入職了一名 Java 中級開發，短短 4 行代碼居然湊齊了 3 個 bug！我哭了~~

公衆號5月C#/.NET熱文一覽

git 下載大陸鏡像地址

三維空間剛體旋轉描述

支持向量機（1）-概念及推導

Docker入門與基本操作（1）

【C++溫故】(1) sizeof

【Python】C++ & Python 混合編程（4）-- Python 調用 C++（SWIG）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結