非線性支持向量機與核函數

1. 核技巧
1.1 非線性分類問題
  非線性分類問題不好求解,一般將其轉化爲一個線性分類問題進行求解,核技巧就是這樣,其基本思想就是通過非線性變換將輸入空間對應到一個特徵空間上,使得輸入空間中的超曲面模型對應於特徵空間上的一個超平面模型也就是支持向量機,問題轉化爲在特徵空間中求解支持向量機。

1.2 核函數
  對於輸入空間 和特徵空間 ,存在一個從 的映射:ϕ(x): , 使得對所有 x,z , 函數 K(x,z) 滿足:K(x,z)=ϕ(x)·ϕ(z) .
則稱 K(x,z) 爲核函數,ϕ(x) 爲映射函數。
  在學習和預測中只定義核函數 K(x,z) , 而不顯示的定義映射函數 ϕ
原理:
  因爲在線性支持向量機的對偶問題中,其目標函數只涉及輸入實例與實例之間的內積 xi·xj ,
這裏寫圖片描述
目標函數中的內積可直接用核函數 K(x,z)=ϕ(x)·ϕ(z) 代替,所以目標函數變成了:這裏寫圖片描述
其本質就是將輸入空間中的內積 xi·xj 變化爲特徵空間中的內積 ϕ(x)·ϕ(z) , 在特徵空間中學習線性支持向量機。
  所以學習是隱式的在特徵空間進行的,不需要顯示的定義特徵空間和映射函數。

1.3 常用的核函數

  • 多項式核函數
    這裏寫圖片描述
  • 高斯核函數
    這裏寫圖片描述
  • 字符串核函數
    核函數不僅定義在歐式空間,還可以定義在離散數據集合上。兩個字符串s和t上的字符串核函數是基於映射 ϕn 的特徵空間中的內積:
    這裏寫圖片描述
    該核函數給出了字符串s和t中長度等於n的所有子串組成的特徵向量的餘弦相似度,其實兩個字符串相同的子串越多,它們越相似其核函數值越大。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章