1. 核技巧
1.1 非線性分類問題
非線性分類問題不好求解,一般將其轉化爲一個線性分類問題進行求解,核技巧就是這樣,其基本思想就是通過非線性變換將輸入空間對應到一個特徵空間上,使得輸入空間中的超曲面模型對應於特徵空間上的一個超平面模型也就是支持向量機,問題轉化爲在特徵空間中求解支持向量機。
1.2 核函數
對於輸入空間
則稱
在學習和預測中只定義核函數
原理:
因爲在線性支持向量機的對偶問題中,其目標函數只涉及輸入實例與實例之間的內積
目標函數中的內積可直接用核函數
其本質就是將輸入空間中的內積
所以學習是隱式的在特徵空間進行的,不需要顯示的定義特徵空間和映射函數。
1.3 常用的核函數
- 多項式核函數
- 高斯核函數
- 字符串核函數
核函數不僅定義在歐式空間,還可以定義在離散數據集合上。兩個字符串s和t上的字符串核函數是基於映射ϕn 的特徵空間中的內積:
該核函數給出了字符串s和t中長度等於n的所有子串組成的特徵向量的餘弦相似度,其實兩個字符串相同的子串越多,它們越相似其核函數值越大。