機器學習與數據挖掘之支持向量機

參考文獻:機器學習與數據挖掘參考文獻


支持向量機是一種二類分類模型。它的基本模型是定義在特徵空間上的間隔最大的線性分類器。支持向量機還包括核技巧,這使它成爲實質上的非線性分類器。支持向量機的學習策略是間隔最大化,可形式化爲一個求解凸二次規劃的問題,也等價於正則化的合頁損失函數的最小化問題。支持向量機的學習算法是求解凸二次規劃的最優化算法。

支持向量機學習方法包含構建由簡至繁的模型:線性可分支持向量機、線性支持向量機及非線性支持向量機。簡單模型是複雜模型模型的基礎,也是複雜模型的特殊情況。當訓練數據線性可分時,通過硬間隔最大化,學習一個線性的分類器,即線性可分支持向量機,又稱爲硬間隔支持向量機;當訓練數據近似線性可分時,通過軟間隔最大化,也學習一個線性的分類器,即線性支持向量機,又稱爲軟間隔支持向量機;當訓練數據線性不可分時,通過使用核技巧及軟間隔最大化,學習非線性支持向量機。

當輸入空間爲歐式空間或離散集合、特徵空間爲希爾伯特空間時,核函數表示將輸入從輸入空間映射到特徵空間得到的特徵向量之間的內積。通過使用核函數可以學習非線性支持向量機,等價於隱式地在高維的特徵空間中學習線性支持向量機。這樣的方法稱爲核技巧。核方法是比支持向量機更爲一般的機器學習方法。

一、線性可分支持向量機與硬間隔最大化

支持向量機最簡單的情況是線性可分支持向量機,或硬間隔支持向量機。構建它的條件是訓練數據線性可分。其學習策略是最大間隔法。可以表示爲凸二次規劃問題,其原始最優化問題爲


求得最優化問題的解爲w*,b*,得到線性可分支持向量機,分離超平面是


分類決策函數是


線性可分支持向量機的最優解存在且唯一。位於間隔邊界上的實例點爲支持向量。最優分離超平面由支持向量完全決定。

二次規劃問題的對偶問題是


通常,通過求解對偶問題學習線性可分支持向量機,即首先求解對偶問題的最優值α*,然後求解最優值w*和b*,得出分離超平面和分類決策函數。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章