《機器學習中的數學》—— 理解SVM原理第一層

瞭解SVM

支持向量機,因其英文名爲suport vector machine,故簡稱SVM,通俗的來講,它是一種二分類模型,其基本模型定義爲:特徵空間上的間隔最大的線性分類器,其學習策略是:間隔最大化,最終可以轉化爲一個凸二次規劃問題的求解。

1.1分類標準的起源:Logistic迴歸

理解SVM,首要問題是理解:線性分類器。

給定一些數據,它們分屬於兩個不同的類,現在要找到一個線性分類器把這些數據分成兩類。
如果用xx表示數據點,用yy表示類別(y11y可以取1或者-1,分別代表了正負樣本),一個線性分類器的學習目標是在n維空間中找到一個超平面(hyper plane),這個超平面的方程可以表示爲(其中w,b是要學習的參數,w抽象爲表示n維特徵(x向量)上的權重,b爲一個偏置值):
wTx+b=0 w^Tx+b=0
關於yy的值爲什麼取111和-1,此問題來源於Logistic迴歸。
Logistic迴歸目的是從特徵中學習出一個0/10/1分類模型,而這個模型是將特徵的線性組合作爲自變量,由於自變量的取值範圍是負無窮到正無窮。因此,使用Logistic函數(sigmoid函數)將自變量映射到(0,1)上,映射後的值 被認爲是屬於y=1y=1的概率。
假設函數:
hθ(x)=g(θTx)=11+eθTx h_\theta(x)=g(\theta^Tx)=\frac{1}{1+e^{-\theta ^Tx}}
其中x是n維向量,函數g就是Logisitic函數,θθ0,θ1,θ2,...,θn)\theta爲(\theta_0,\theta_1, \theta_2, ...,\theta_n)是一組對特徵xx的參數。
其中g(z)=11+ezg(z)=\frac{1}{1+e^{-z}}
在這裏插入圖片描述
可以看到,將xx的所有值都映射到了01(0-1)之間。
sigmoid函數增加了線性模型的魯棒性,利用概率的形式避免了難以準確分類的情況。
接下來,嘗試把Logistic迴歸做一個變型,首先將標籤y=0變爲y=-1,然後將θTx=θ0+θ1x1+...+θnxn\theta^Tx=\theta_0+\theta_1 x_1+...+\theta_n x_n中的θ0\theta_0替換爲bb,將後面的θ1x1+...+θnxn\theta_1 x_1+...+\theta_n x_n替換成wTxw^Tx,如此就有了θTx=wTx+b\theta^Tx=w^Tx+b,因此除了y的變化,線性分類器和Logistic迴歸形式表示沒有區別。

1.2 線性分類的一個例子

舉一個簡單的例子作爲引入:如圖所示,現有一個二維平面,平面上有兩種不同的數據,假設這些數據的線性可分的,其中的超平面是一條直線。
在這裏插入圖片描述
這個超平面可以用分類函數f(x)=wT+bf(x)=w^T+b表示,當f(x)f(x)等於0時,x便位於超平面上,而f(x)>0f(x)>0對應的點y=1y=1,反之f(x)<0f(x)<0的點y=1y=-1,如圖所示:
在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章