機器學習系列(13)_SVM碎碎念part1:間隔

作者:寒小陽
時間:2016年9月。
出處:http://blog.csdn.net/han_xiaoyang/article/details/52678373
聲明:版權所有,轉載請聯繫作者並註明出處

1.引言

欠的總歸是要還的,SVM這麼神聖的算法是每個學習machine learning的同學可能會頭痛卻又不得不面對的,即使到現在爲止博主這樣的Math/CS渣都覺得一定沒有領悟到SVM精髓,所以整理了一些邊邊角角的碎碎念,顫顫巍巍放到這個系列裏,算是自己做個總結,也希望能對大家有一點點的幫助。這個SVM系列大部分內容來自Alexandre KOWALCZYK大神的SVM Tutorial以及一些簡單的個人理解,會盡量放慢步伐,力爭把東西交代得更清楚。這一節是第一部分,很簡單,我們來認識一下SVM中很重要的一個概念:Margin,也就是間隔

2.支持向量機(SVM)的目標是什麼

SVM的目標是利用訓練數據集的間隔最大化找到一個最優分離超平面

首先和邏輯斯蒂迴歸樸素貝葉斯一樣,我們需要一些打標籤的數據用於訓練,這也就是說SVM是一個有監督學習算法

同樣,SVM是一個分類算法,和邏輯斯蒂迴歸樸素貝葉斯一樣,可以用於預測數據屬於哪個類別。

典型的分類問題比如結果預測(比如泰坦尼克號生存結果)和垃圾郵件分類,或者下面這個簡答的人羣分類小例子:

cmd-markdown-logo

上圖是人的身高和體重繪製的散點圖,使用支持向量機(SVM),可以嘗試回答以下問題:

給定一個特定的數據點(重量和高度),這個人是一個男人還是一個女人?

例如:有人高175釐米,重80公斤,他是男人還是女人呢?

3.什麼是分離超平面

在圖中我們可以看出,我們是有辦法可以分離這兩類樣本點的。例如:我們可以畫一條線,使得所有的男性數據點在直線上方,所有的女性數據點在直線的下方。我們知道在邏輯斯蒂迴歸當中,這條直線叫做決策邊界,在SVM當中我們暫且把它叫做分離超平面,大概是下圖這個樣子的,但是它和LR裏面的決策邊界有一些小小的不同,一會兒我們會提到。

cmd-markdown-logo

如果它僅僅是一條線,我們爲什麼稱它爲一個超平面?

上面只是二維空間中的一個小例子,但事實上SVM在任意維度上均有效。

超平面是平面的一般化

  • 在一維的平面中,它是點
  • 在二維中,它是線
  • 在三維中,它是面
  • 在更高的維度中,我們可以稱之爲超平面

cmd-markdown-logo
點L是一維空間下的分離超平面

什麼是最優分離超平面?

OK,重點來了,剛纔提到了邏輯斯蒂迴歸當中,有個類似的概念叫做決策邊界,在SVM當中把它叫做分離超平面,事實上,你找到了一個分離超平面,但那不意味着它是最優的那個!

回到剛纔的例子中,我們可以找到好幾個分離超平面。他們每一個都是正確的,可以成功將數據集中的男性和女性劃分兩邊。
cmd-markdown-logo
但是是不是說這些分離超平面都一樣好呢?

OK,咱們一起來看看,假設我們選擇那個綠色的分離超平面,然後咱們用在現實生活中的數據上進行分類。

cmd-markdown-logo
你會發現有一些女性被分錯了!!直觀上非常好理解,這個分類超平面太接近女性(紅色樣本點)了,那它對noise/異常點/臨近邊界的點處理得並不好。

所以大家都想到了,我麼要選擇這樣一個超平面–儘可能的遠離所有類別的數據點
cmd-markdown-logo

這次看起來好多了,再用剛纔新加的樣本點去分類,你發現這次它健壯多了,可以好好地把它們分對了。

cmd-markdown-logo

對,這就是SVM要做的事情,支持向量機就是要找到這樣一個最優分類超平面,保證:

  • 正確地對訓練數據進行分類
  • 對未知數據也要進行很好的分類

.

所以這和Margin/間隔有什麼關係呢?又怎麼找到它呢

cmd-markdown-logo
對應上圖,一句話概括:Margin就是最優分離超平面的間隔。

給定一個特定的超平面,我們可以計算出這個超平面與和它最接近的數據點之間的距離。間隔(Margin)就是二倍的這個距離。

一般來說,間隔(Margin)中間是無點區域。這意味着裏面不會有任何點。(注:在數據有噪聲的情況下,可能達不到這麼理想的狀況,所以我們後面會引入軟間隔分類器)

我們從剛纔的分割超平面裏再選一個,間隔(Margin)會看起來像這樣:
cmd-markdown-logo

可以清楚地看出,B的間隔要小於A的間隔

我們有以下的觀察結果:

  • 如果一個超平面有非常接近的一個數據點,那麼間隔會小。
  • 如果一個超平面離數據點越遠,那麼間隔越大。

這意味着最優超平面將有最大的間隔

我們後面也會看到SVM是利用間隔最大化求得最優分離超平面

歡迎瀏覽SVM碎碎念part2:SVM中的向量與空間距離

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章