泛統計理論初探——再談支持向量機

數據挖掘-再談支持向量機

再談支持向量機
上一篇文章我們談到了支持向量機的名稱是如何由來的以及支持向量機基本的原理。同時我們也討論了函數間隔和幾何間隔的差異,並給出了函數形式。下面在這篇文章中,我們將接着上文繼續討論如何做到間隔最大化以及探討在數據線性可分時,如何做到硬間隔最大化。
在這裏插入圖片描述
在上述幾何間隔公式的基礎上,我們進一步的去理解支持向量機這種方法的本身目的,該方法是想通過求解幾何間隔最大的超平面去分割數據集,使得分割的數據集的誤分類數目最小。從另一個角度去理解的話,其實是想在保證分割準確性的基礎上,儘可能的去尋找離各個數據集最遠的超平面,這個超平面的穩健性是最好的,當出現模棱兩可的點時,能夠更穩健地對數據進行分割。下圖中的綠線其實是間隔最大化的超平面,從目前的數據來看,綠線、紅線、藍線都可以很好的對數據集進行分割,但是當一些模棱兩可的數據出現時,藍線和紅線的穩健性不夠強,容易受到干擾,而綠線最爲穩健。
在這裏插入圖片描述
因此我們將這個尋找間隔最大化的超平面問題轉化爲數學上的優化問題後,得到如下式:
在這裏插入圖片描述
在這裏插入圖片描述
其中最大化的目標是距離,限制條件是數據在超平面的兩側要儘量的被分割準確,即誤差儘量小。在上述優化目標中,真正需要進行優化的是參數||w||,因此我們只需關注參數即可。而衆所周知的是,最大化上式的結果和最小化下式是一樣的,同時我們將y的值取1然後代入上式,得到如下的最優化問題:
在這裏插入圖片描述
在這裏插入圖片描述
同時根據這個表達式可以將該問題轉化爲求解最大值的對偶問題,即可以使用拉格朗日對偶性對優化問題進行求解,從而得到原問題的最小值。具體的轉化方法和推導和參考李航老師的《統計學習方法》。當構建好拉格朗日函數後對參數w和b進行求導,並令導數爲0,即可得到KKT條件,並得到最終的最大間隔超平面。
上述求解的原理對於線性可分的數據集可以如此處理,其本質上還是利用了凸二次規劃一定有最優解,同時使用拉格朗日函數的方法進行求解,但是當數據集不是線性可分時,這種方法不能直接使用,而是應該使用核函數將數據集進行升維,提升維度後在更高的空間中將原本線性不可分的數據集變得基本線性可分。
總的來說,在日常生活中很難遇到真正線性可分的數據集,而這種處理思路以及最優化問題的轉化步驟是我們值得學習的。因此在先需要搞清楚在理想數據情況下的時候如何使用這種方法,對於日後我們學習線性不可分的數據集時大有用處。並且我們應該要清楚不同的核函數的效果是不同的,還需要研究實際的數據的分佈情況去決定到底使用哪一種核函數,由於核函數的使用是有技巧性和選擇性,因此被稱爲核技巧。在下一篇文章中我們會繼續討論線性不可分的數據情況以及如何選擇使用核函數的技巧。

發佈了29 篇原創文章 · 獲贊 30 · 訪問量 1萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章