核函數

一、常用核函數:

1.線性核函數 :
在這裏插入圖片描述
線性核函數(Linear Kernel)是多項式核函數的特例,優點是簡潔,缺點是對線性不可分數據集沒有解決辦法。主要用於線性可分的情況,我們可以看到特徵空間到輸入空間的維度是一樣的,其參數少速度快,對於線性可分數據,其分類效果很理想,因此我們通常首先嚐試用線性核函數來做分類,看看效果如何,如果不行再嘗試其他的。

2.多項式核函數:
在這裏插入圖片描述
多項式核函數(Polynomial Kernel)可以實現將低維的輸入空間映射到高緯的特徵空間,但是多項式核函數的參數多,當多項式的階數比較高的時候,核矩陣的元素值將趨於無窮大或者無窮小,計算複雜度會大到無法計算。

3.高斯核函數(RBF)
在這裏插入圖片描述
高斯核函數(Gaussian Kernel)也叫徑向基核函數(Radial Basis Function),是一種局部性強的核函數,該函數的形狀爲鐘形曲線,參數\sigma控制曲線的寬度(胖瘦)。可以把輸入特徵向量擴展到無限維度的空間裏。高斯核函數計算出來的值永遠在0到1之間。其可以將一個樣本映射到一個更高維的空間內,該核函數是應用最廣的一個,無論大樣本還是小樣本都有比較好的性能,而且其相對於多項式核函數參數要少,因此大多數情況下在不知道用什麼核函數的時候,優先使用高斯核函數。

4.sigmoid核函數
在這裏插入圖片描述
sigmoid核函數(Sigmoid Kernel),支持向量機實現的就是一種多層神經網絡。

5.拉普拉斯核函數(Laplacian Kernel)
在這裏插入圖片描述

6.二次有理核函數(Rational Quadratic Kernel)

在這裏插入圖片描述

7.冪指數核函數(Exponential Kernel)

在這裏插入圖片描述

8.ANOVA核函數(ANOVA Kernel)
在這裏插入圖片描述

9.多元二次核函數(Multiquadric Kernel)
在這裏插入圖片描述

10.逆多元二次核函數(Inverse Multiquadric Kernel)
在這裏插入圖片描述

二、核函數特點:

 1)核函數的引入避免了“維數災難”,大大減小了計算量。而輸入空間的維數n對核函數矩陣無影響,因此,核函數方法可以有效處理高維輸入。
 2)無需知道非線性變換函數Φ的形式和參數.
 3)核函數的形式和參數的變化會隱式地改變從輸入空間到特徵空間的映射,進而對特徵空間的性質產生影響,最終改變各種核函數方法的性能。
 4)核函數方法可以和不同的算法相結合,形成多種不同的基於核函數技術的方法,且這兩部分的設計可以單獨進行,並可以爲不同的應用選擇不同的核函數和算法。

三、選擇核函數的方法:

  • 如果特徵的數量大到和樣本數量差不多,則選用LR或者線性核的SVM;
  • 如果特徵的數量小,樣本的數量正常,則選用SVM+高斯核函數;
  • 如果特徵的數量小,而樣本的數量很大,則需要手工添加一些特徵從而變成第一種情況。

在選用核函數的時候,如果我們對我們的數據有一定的先驗知識,就利用先驗來選擇符合數據分佈的核函數;如果不知道的話,通常使用交叉驗證的方法,來試用不同的核函數,誤差最下的即爲效果最好的核函數,或者也可以將多個核函數結合起來,形成混合核函數。

四、核函數方法實施步驟:

核函數方法是一種模塊化(Modularity)方法,它可分爲核函數設計和算法設計兩個部分,具體爲:

1)收集和整理樣本,並進行標準化;
2)選擇或構造核函數;
3)用核函數將樣本變換成爲核函數矩陣,這一步相當於將輸入數據通過非線性函數映射到高維特徵空間;
4)在特徵空間對核函數矩陣實施各種線性算法;
5)得到輸入空間中的非線性模型。
顯然,將樣本數據核化成核函數矩陣是核函數方法中的關鍵。注意到核函數矩陣是l×l的對稱矩陣,其中l爲樣本數。

五、核函數在模式識別中的應用:

1)新方法。主要用在基於結構風險最小化(Structural Risk Minimization,SRM)的SVM中。
2)傳統方法改造。如核主元分析(kernel PCA)、核主元迴歸(kernel PCR)、核部分最小二乘法(kernel PLS)、核Fisher判別分析(Kernel Fisher Discriminator, KFD)、核獨立主元分析(Kernel Independent Component Analysis,KICA)等,這些方法在模式識別等不同領域的應用中都表現了很好的性能。

六、核函數方法原理:

根據模式識別理論,低維空間線性不可分的模式通過非線性映射到高維特徵空間則可能實現線性可分,但是如果直接採用這種技術在高維空間進行分類或迴歸,則存在確定非線性映射函數的形式和參數、特徵空間維數等問題,而最大的障礙則是在高維特徵空間運算時存在的“維數災難”。採用核函數技術可以有效地解決這樣問題。
設x,z∈X,X屬於R(n)空間,非線性函數Φ實現輸入間X到特徵空間F的映射,其中F屬於R(m),n<<m。根據核函數技術有:

K(x,z) =<Φ(x),Φ(z) >                (1)
其中:<, >爲內積,K(x,z)爲核函數。從式(1)可以看出,核函數將m維高維空間的內積運算轉化爲n維低維輸入空間的核函數計算,從而巧妙地解決了在高維特徵空間中計算的“維數災難”等問題,從而爲在高維特徵空間解決複雜的分類或迴歸問題奠定了理論基礎。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章