支持向量機
核心思想:最大化幾何間隔
1. 線性可分支持向量機
1.1 名詞解釋
- 函數間隔 𝛾′
- 感知機損失函數的分子。
- 大於0分類正確,小於0分類錯誤。
- 幾何間隔 𝛾
感知機的損失函數就是幾何間隔。
1.2 損失函數
初始損失函數是正確分類點到超平面的距離加和,但因爲要使幾何間隔最大,所以是最大化。約束條件𝑦𝑖(𝑤𝑇𝑥𝑖+𝑏)=𝛾′(𝑖)≥𝛾′(𝑖=1,2,...𝑚)
,通常取𝛾′= 1
。
1.3 損失函數的優化
- 將有約束轉爲無約束損失函數,引入拉格朗日算子𝛼。
- 轉爲解對偶形式。
- 首先分別計算對偶式對𝑤和𝑏的偏導。
- 帶回原式後,只剩變量𝛼。
- 通過SMO算法求得𝛼。
- 根據第三步求導得出的關係式求出𝑤。
- 求出𝑏。
2. 線性支持向量機
當數據集匯中出現了少量的異常點,導致線性不可分的時候,線性可分支持向量機就無能爲力了。此時,需要通過軟間隔最大化方法,即線性支持向量機模型。
2.1 軟間隔最大化
區別於線性可分支持向量機的硬間隔最大化,軟間隔最大化引入鬆弛變量(𝜉𝑖 ≥ 0)。使樣本點距支持向量的距離爲1 - 𝜉𝑖
。同時對於每一個鬆弛變量,又對應着一個代價𝜉𝑖。
2.2 損失函數
- 2.2.1 普通損失函數
同線性可分支持向量機類似,但是因爲引入了鬆弛變量,所以需要加上對應的代價。
- 2.2.2 合葉損失函數
這是對支持向量機的另一種解釋。合葉損失函數:
當樣本點被正確分類且函數間隔大於等於1時,損失爲零。否則是1 − 𝑦(𝑤∙𝑥+𝑏)
。相對於感知機的損失函數,合葉損失函數提出了更高的要求。
3. 非線形支持向量機
當數據完全線性不可分時,採用低維數據映射到高維的方法,使得可以在高維線性可分,從而轉爲前兩節的問題。但僅簡單的映射到高維,會導致計算量暴增,因此又引入核函數,可以在低維計算,卻有高維的效果。
3.1 核函數定義
設𝜙是一個從輸入空間𝜒(歐氏空間的子集或離散集合)到特徵空間(希爾伯特空間)的映射。若存在函數K(x,z),使得𝐾(𝑥,𝑧)=𝜙(𝑥)∙𝜙(𝑧)
,則稱K(x,z)是核函數,𝜙(𝑥)時映射函數。
3.2 損失函數
線性支持向量機可以看作特殊的(取線性核函數)非線性支持向量機。
3.3 常用核函數
- 線性核函數
𝐾(𝑥,𝑧)=𝑥∙𝑧
- 多項式核函數
𝐾(𝑥,𝑧)=(𝛾𝑥∙𝑧+𝑟)^𝑑
- 高斯核函數
𝐾(𝑥,𝑧)=𝑒𝑥𝑝(−𝛾||𝑥−𝑧||^2)
- Sigmoid核函數
𝐾(𝑥,𝑧)=𝑡𝑎𝑛ℎ(𝛾𝑥∙𝑧+𝑟)