SVM核函數理解

<body>

在對多維特徵空間\(\mbox{V}_n\)的樣本進行分類時,\(\mbox{V}_n\)中樣本點的相似度使用內積進行計算,這是因爲內積的本質就是計算\(\bf{x_1}\)\(\bf{x_2}\)上的投影大小。但是這種計算方式與樣本點的“位置”(即樣本特徵與原點的距離)相關,也就是說如果\(\bf{x_1}\)擴大到了\(2\bf{x_1}\),則它與\(\bf{x_2}\)的內積也會擴大至原來的兩倍,但是由下圖可知,\(\bf{x_1}\)\(\bf{x_2}\)的相似度並不會遜於\(2\bf{x_1}\)\(\bf{x_2}\)的相似度。同樣的,如果使用餘弦相似度也會這種情況,即夾角變小但是距離不變。

內積與原點有關

所以我們希望找到一種映射關係,使得兩個樣本之間的相似度只與距離\(\norm{\bf{x_2}-\bf{x_1}}\)有關,也就是說與起點(即樣本空間的原點)無關!幸運的是,廣義平穩過程正是我們要找的,因爲在這種過程下進行的採樣就是自相關的(也就是與起點無關,只與採樣間隔有關)。所以我們將\(\bf{x_1}\)視爲當前信號時刻、\(\bf{x_2}\)視爲延遲後信號時刻,即將樣本特徵空間視爲時域,這樣就可以借用自相關函數來計算樣本之間的相似度。

自相關函數定義爲:

\[\begin{aligned} \gamma_f(x_2-x_1)&\overset{def}{=}<f_{(x_2-x_1)}(x),\overline{f_{(x_1-x_2)}(x)}>\overset{def}{=}\int_{-\infty}^{+\infty}{f(x)}\overline{f(x-(x_2-x_1))}dx \\ &=\int_{-\infty}^{+\infty}{f(x-x_1)}\overline{f(x-x_2)}dx=<f_{x_1}(x),f_{x_2}(x)> \end{aligned} \]

所以我們的任務就是找到一種波包(或稱爲映射關係)\(f(x)\),滿足\(\Gamma_f=[\gamma_f(x_j-x_i)]\)爲半正定矩陣。需要注意的是,\(f\)本身是與起點相關的映射,但是通過自相關卷積之後就與起點無關了,可以理解爲\(dx\)積分將\(x\)消去了,只剩下\(\norm{x_2-x_1}\)。爲了將波包函數內積與樣本空間內積組成映射關係,我們記:

\[\kappa<x_1,x_2>=\gamma_f(x_2-x_1)=<f_{x_1}(x),f_{x_2}(x)> \]

並將\(\kappa\)稱爲核函數,而\(f\)就被稱爲核函數背後隱藏的映射。

</body>
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章