【機器學習】5.支持向量機

原創

2020-02-21 01:26

文章目錄

間隔與支持向量

給定數據集D={ $\mathop (x_1,y_1),(x_2,y_2),...,(x_m,y_m)$ }, $\mathop y_i\in{[-1,+1]}$ 訓練的基本思想就是基於訓練集D在樣本空間找到一個劃分超平面。
在樣本空間中，劃分超平面可通過如下線性方程來描述
$W^Tx+b = 0$
其中 $\mathop w = (w_1,w_2,...,w_d)$ 爲法向量，決定超平面的方向，b爲位移量，決定超平面與原點治安的距離，記爲（w，b）
樣本空間中任意點x到超平面（w，b）的距離爲：
$r = \frac{|W^Tx+b|}{||w||}$
若將w，b等比例增大，例如2w，2b，超平面未改變，但函數間隔缺改變了，所以除以||w||。

若超平面劃分正確，則有:
$\begin{cases} w^Tx_i+b>0, & y_i =+1 \\ w^Tx_i+b<0, & y_i =-1 \end{cases}$
令：
$\begin{cases} w^Tx_i+b \geq 1, & y_i =+1 \\ w^Tx_i+b \leq -1, & y_i =-1 \end{cases}$
若訓練樣本使 $\mathop w^Tx_i +b=\pm1$ ,則被稱爲支持向量，兩個異類支持向量到超平面的距離之和成爲間隔。
$r = \frac{2}{||w||}$
欲找到最大化間隔的劃分超平面，即使r最大
$max_{w,b}\frac{2}{||w||}_{s.t. y_i(w_Tx_i+b\geq 1)}$

即：
$min_{w,b}0.5||w||^2_{s.t. y_i(w_Tx_i+b\geq 1)}$

對偶問題

根據 $\mathop min_{w,b}0.5||w||^2_{s.t. y_i(w_Tx_i+b\geq 1)}$
　　 $\mathop f(x) = w^Tx+b$ 　　　　　　求解得到最大間隔劃分超平面
使用拉格朗日乘子法
$L(w,b,\alpha) = \frac{1}{2}||w||^2 + \sum_{i=1}^m \alpha_i(1-y_i(w^T+b))$
如此，問題就變成了:
$max_{\alpha} min_{w,b} L(w,b,\alpha)$

對L(w,b,α)的w，b求偏導並等於0.
$\frac{\sigma L}{\sigma w} = w-\sum_{i=1}^m \alpha_iy_ix_i=0$

$\frac{\sigma L}{\sigma b} = \sum_{i=1}^m \alpha_ig_i = 0$

代入原式中
$L(w,b,\alpha) = \frac{1}{2}(\sum_{i=1}^m \alpha_iy_ix_i)^2 - \sum_{i=1}^m \alpha_i(1-y_i(\sum_{i=1}^m\alpha_iy_ix_i * x+b)) =\sum_{i=1}^m \alpha_i - \frac{1}{2}\sum_{i=1}^m \sum_{j=1}^m \alpha_i\alpha_jy_iy_jx_ix_j$

即
$max_\alpha L(w,b,\alpha)_{s.t. \begin{cases}\sum_{i=1}^m \alpha_iy_i=0 \\ \alpha \geq 0 \end{cases}}$

${max_\alpha \sum_{i=1}^m\alpha_i - \frac{1}{2}\sum_{i=1}^m \sum_{j=1}^m \alpha_i\alpha_jy_iy_jx_ix_j }_{s.t. \begin{cases} \alpha \geq 0 \\ \sum_{i=1}^m \alpha_iy_i=0 \end{cases}}$

求解
$f(x) = w^Tx +b = \sum_{i=1}^m \alpha_iy_ix_i^Tx_i +b$

核函數

在原始樣本空間內也許不存在一個能正確劃分兩類樣本的超平面，這是，我們可以將樣本從原始空間映射到一個更高維的特徵空間。
令 $\mathop \Phi(x)$ 表示將x映射後的特徵向量，則超平面爲：
$f(x)=w^T\Phi(x) +b$
對應有
${max_\alpha \sum_{i=1}^m\alpha_i - \frac{1}{2}\sum_{i=1}^m \sum_{j=1}^m \alpha_i\alpha_jy_iy_j（\Phi(x_i)*\Phi(x_j)）}_{s.t. \begin{cases} \alpha \geq 0 \\ \sum_{i=1}^m \alpha_iy_i=0 \end{cases}}$
因爲 $\mathop \Phi(x_i)*\Phi(x_j)$ 難以計算，所以設想一個函數k
$K(x_i,x_j) = <\Phi(x_i),\Phi(x_j)> = \Phi(x_i)*\Phi(x_j)$
我們稱K<·,·>爲核函數
令x爲輸入空間，K<·,·>是定義在xxx上的對稱函數，當且僅當對於任意數據 $\mathop D=[X_1,X_2,..,x_m]$ ,核矩陣k總是半正定的，k使核函數。

$K = \begin{bmatrix} k(x_1,x_1) & ... & k(x_1,x_j) & ... &k(x_1,x_m) \\..& ...&..&...&.. \\ k(x_i,x_1) &...&k(x_i,x_j)&...& k(x_i,x_m) \\..& ...&..&...&.. \\ k(x_m,x_1)&...&k(x_m,x_j)&...&k(x_m,x_m) \end{bmatrix}$
常用核函數
$k(x_i,y_i)=x_iy_i$

$k(x_i,y_i)=(x_iy_i)^d$

$k(x_i,y_i)=exp(-\frac{||x_i-x_j||^2}{2\sigma^2})$

$........$

軟間隔和正則化

軟間隔是允許某些樣本不滿足條件
$y_i(w^Tx_i + b) \geq 1$
於是優化目標可以寫成
$min_{w,b} \frac{1}{2}||w||^2 + c \sum_{i=1}^m\tau_{0/1}(y_i(w^Tx_i+b)-1)$
其中C是大於0的常熟， $\mathop \tau_{0/1}$ 是0/1的損失函數
$\begin{cases}1 , &&\text{if z<0} \\ 0,&& \text{otherwise}\end{cases}$
當C爲無窮大時，則等價爲硬間隔， $\mathop \tau_{0/1}$ 的數學性質不好，所以使用代替函數，常見有：
hinge損失： $\mathop \iota_{hinge}(z) = max(0,1-z)$
指數損失： $\mathop \iota_{exp}(z) = exp(-z)$
對率損失： $\mathop \iota_{log}(z) = log(1+exp(-z))$
使用hinge損失，可將原始改爲：
$min_{w,b} \frac{1}{2}||w||^2 + c \sum_{i=1}^mmax(0,1-y_i(w^Tx_i+b))$

引入鬆弛變量 $\mathop \xi_i\geq0$
$min_{w,b,\xi} 1/2||w||^2 + c\sum_{i=1}^m\xi_i$

$s.t. y_i(w^Tx_i+b)\geq 1-\xi_i$

$\xi_i\geq0$

拉格朗日乘子法
$L(w,b,\alpha,\xi,\mu) = 1/2 ||w||^2+c\sum_{i=1}^m\xi_i+\sum_{i=1}^m\alpha_i(1-\xi_i-y_i(w^Tx_i+b))-\sum_{i=1}^m\mu_i\xi_i$
對 $\mathop w,b,\xi$ 求偏導。
$w = \sum_{i=1}^m\alpha_iy_ix_i$

$0 = \sum_{i=1}^m\alpha_iy_i$

$c=\alpha_i+\mu_i$

代入：
$max_{\alpha_i} \sum_{i=1}^m\alpha_i - 1/2\sum_{i=1}^m\sum_{j=1}^m\alpha_i\alpha_jy_iy_ix_ix_j$

$s.t. \sum_{i=1}^m\alpha_iy_i=0$

$0\leq\alpha_i\leq c$

支持向量機迴歸

支持向量機迴歸能容忍 $\mathop f(x) 與 y$ 之間有 $\mathop \xi$ 的偏差，這就相當於以 $\mathop f(x)$ 爲中心，構建了一個寬度爲 $\mathop2\xi$ 的間隔帶，只有訓練樣本落入間隔帶，則認爲是正確預測。
$min_{w,b}1/2||w||^2 + c\sum_{i=1}^m\zeta_e(f(x_i)-y_i)$
其中c爲正則化常數，
$\zeta_e(z)=\begin{cases} 0 , & if |z|\leq \epsilon \\ |z|-\epsilon , & otherwise\end{cases}$
引入鬆弛變量，可改寫爲:
$min_{w,b,\xi_i,\hat\xi_i} 1/2||w||^2 + c\sum_{i=1}^m(\xi_i+\hat\xi_i)$

$s.t. f(x_i)-y_i \leq\epsilon_i+\xi_i$

$y_i-f(x_i)\leq\epsilon_i+\hat\xi_i$

$\xi_i\geq0 ,\hat\xi_i\geq0$
引入拉格朗日乘子
$L(w,b,\alpha,\hat\alpha,\xi,\hat\xi,\mu,\hat\mu) = 1/2||w||^2+c\sum_{i=1}^m(\xi+\hat\xi)-\sum_{i=1}^m\mu_i\xi_i-\sum_{i=1}^m\hat\mu_i\hat\xi_i+\sum_{i=1}^m\alpha_i(f(x_i)-y_i-\epsilon-\epsilon_i)+\sum_{i=1}^m\hat\alpha_i(y_i-f(s_i)-\epsilon-\hat\xi_i)$

對 $\mathop w,b,\xi_i,\hat\xi_i$ 求偏導爲零
$w=\sum_{i=1}^m(\hat\alpha_i-\alpha_i)x_i$

$0 = \sum_{i=1}^m(\hat\alpha_i-\alpha_i)$

$c = \alpha_i +\mu_i=\hat\alpha_i+\hat\mu_i$

代入上述 $\mathop L(w,b,\alpha,\hat\alpha,\xi,\hat\xi,\mu,\hat\mu)$ 中：

$max_{\alpha,\hat\alpha}\sum_{i=1}^m(\hat\alpha_i-\alpha_i)-\epsilon(\hat\alpha_i+\alpha_i)-1/2\sum_{i=1}^m\sum_{j=1}^m(\hat\alpha_i-\alpha)(\hat\alpha_j-\alpha)x_ix_j$

$s.t. \sum_{i=1}^m(\hat\alpha_i-\alpha_i)=0$

$0\leq(\alpha_i,\hat\alpha_i)\leq c$

核方法

定理：令H爲核函數k對用的再生和希爾伯特空間，||h||_H表示H空間中關於h的範數，對於任意單調遞增函數 $\mathop \Omega:[0,\infty] \to R$ 和任意非負損失函數 $\mathop \vartheta:R^m \to [0,\infty]$ ，優化問題
$min_{h\in H}F(h)=\Omega(||h||_H) + \vartheta(h(x_1),h(x_2),...,h(x_m))$

的解總可以寫爲：

$h^*(x)=\sum_{i=1}^m\alpha_ik(x,x_i)$

fxflyflyfly

發佈了36 篇原創文章 · 獲贊 20 · 訪問量 4120

私信關注

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

【機器學習】5.支持向量機

文章目錄

間隔與支持向量

對偶問題

核函數

軟間隔和正則化

支持向量機迴歸

核方法

[轉帖]使用NMT和pmap解決JVM資源泄漏問題原創

Python實現大麥網搶票的四大關鍵技術點解析

Python 安裝庫指令大全

salesforce零基礎學習（一百三十八）零碎知識點小總結（十）

一款開源的.NET程序集反編譯、編輯和調試神器

關於接口協議，你必須要知道這些！

基於 Milvus + LlamaIndex 實現高級 RAG

【2024-05-21】以茶會友

【keras】0.2 TensorBoard報錯彙總及總結

【keras】0.1keras.datasets常用數據集，默認下載地址與修改

【機器學習】5.支持向量機

【Spark】3.RDD編程

【阿里雲】1.阿里雲大數據產品體系

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結