線性支持向量機 (Linear-SVM) 被用於線性可分的數據集的二分類問題,當數據集不是線性可分的時候,需要利用到核函數將數據集映射到高維空間。這樣數據在高維空間中就線性可分。
1 高斯核函數定義
高斯核函數(Gaussian kernel),也稱徑向基 (RBF) 函數,是常用的一種核函數。它可以將有限維數據映射到高維空間,我們來看一下高斯核函數的定義:
上述公式涉及到兩個向量的歐式距離(2範數)計算,而且,高斯核函數是兩個向量歐式距離的單調函數。σ 是帶寬,控制徑向作用範圍,換句話說,σ 控制高斯核函數的局部作用範圍。當x 和x′ 的歐式距離處於某一個區間範圍內的時候(也可看作樣本距離或特徵距離),假設固定x′,k(x,x′) 隨x的變化而變化的相當顯著。
2 一維情況
令x′=0,k(x,0) 隨x的變化情況如下圖所示:
σ=1
σ=5
我們看到,隨着x與x′的距離的距離的增大,其高斯核函數值在單調遞減。並且,σ越大,那麼高斯核函數的局部影響範圍就會越大。
3 二維情況
σ=1
σ=5
二維可以更加明顯的看出高斯核函數局部作用的範圍隨帶通的變化情況。帶通越大,高斯核函數的局部影響的範圍就越大。在超出這個範圍之後,核函數的值幾乎不變。
3 高斯核將數據映射到高維甚至無窮維的原理
通過一些簡單的推導,我們可以得到這樣的結果,爲了描述簡單,我們令高斯核中的分母爲1.
圖片來自:知乎提問
可以看到,高斯核函數通過泰勒展開可以被描述成的形式,而是無窮維的。
以上內容來自: