支持向量機 Support Vector Machine(學習筆記、python)

一、支持向量機

支持向量機的基本思想是SVM從線性可分情況下的最優分類面發展而來。最優分類面就是要求分類線不但能將兩類正確分開(訓練錯誤率爲0),且使分類間隔最大。SVM考慮尋找一個滿足分類要求的超平面,並且使訓練集中的點距離分類面儘可能的遠,也就是尋找一個分類面使它兩側的空白區域(margin)最大。(SVM算法就是爲找到距分類樣本點間隔最大的分類超平面(ω,b)(\omega, b)過兩類樣本中離分類面最近的點,且平行於最優分類面的超平面上H1,H2的訓練樣本就叫支持向量。)
在這裏插入圖片描述
上圖中直線(ω.x)+b=0R2(ω.x)+b=1(ω.x)+b=1{(\omega* .x)+b^* =0}是空間R2上的分劃線。直線{(\omega*.x)+b^*=1}和{(\omega^* .x)+b^*=-1}是兩條支持直線.屬於正類的非支持向量一定位於對應1的支持直線的一側(包含邊界線),屬於負類的非支持向量一定位於對應-1的支持直線的一側(包含邊界線).而屬於正類的支持向量和屬於負類的支持向量分別位於上述兩條支持直線上由此可以體會“支持向量”一詞的由來。(如圖中的紅框框裏面的點即是支持向量)

1.線性支持向量機

給定線性可分(不可分)的訓練數據集,通過硬(軟)間隔最大化或者等價的
的求解相應的凸二次規劃問題學習得到的分離超平面爲:ωx+b=0{\omega∗x+b=0}
以及相應的分類決策函數:f(x)=sign(ωx)+bf(x)=sign(ωx)+b{f(x)=sign(\omega∗x)+bf(x)=sign(\omega∗x)+b}

2.非線性支持向量機

從非線性分類訓練集,通過核函數與軟間隔最大化,或者凸二次優化,學習得到的分類決策函數 f(x)=sign(i=1NαiyiK(x,xi)+b){f(x)=sign(\displaystyle\sum_{i=1}^N{\alpha_iy_i}K(x,x_i)+b)}
K(x,z)其中,{K(x,z)}是正定核函數。

二、支持向量機重要概念

1.函數間隔

(ω,b)(xi,yi)γi^=yi(wxi+b);ω,bT(ω,b)(xi,yi)定義超平面{(\omega, b)}關於樣本點{(x_i, y_i)}的函數間隔是 {\hat {\gamma_i}=y_i(w∗x_i+b);} 超平面\omega, b 關於訓練集 T 的函數間隔爲:\\ 超平面{(\omega, b)}與所有樣本點 (x_i, y_i)的函數間隔最小值:
γ^=mini=1,2...Nγi^{\hat{\gamma}=\displaystyle\min_{i=1,2...N}\hat{\gamma_i}}

  • 函數間隔可以表示分類預測的正確性及確信度

2.幾何間隔

(ω,b)(xi,yi)γi=yi(ωωxi+bω)定義超平面{(\omega, b)}關於樣本點{(x_i, y_i)}的幾何間隔是{\gamma_i=y_i(\frac{\omega}{\Vert\omega \Vert}*x_i+\frac{b}{\Vert\omega \Vert})};(ω,b)T(ω,b)(xi,yi)超平面(\omega, b)關於訓練數據集T的幾何間隔是: 超平面(\omega, b)與所有樣本點 (x_i, y_i)的幾何間隔最小值:γ=mini=1,2...Nγi^{\gamma=\displaystyle\min_{i=1,2...N}\hat{\gamma_i}}

  • 幾何間隔是爲樣本點到超平面的帶符號距離,當樣本被正確分類時,即爲樣本點到超平面的距離

3.核函數

χRnH()ϕ(x):χH;使x,zχ,K(x,z)滿K(x,z)=ϕ(x)ϕ(z),K(x,z)ϕ(x)從輸入空間\chi(歐式空間R^n 的子集或者離散集合)到特徵空間H (希爾伯特空間)的映射: \\{ϕ(x):\chi{\Rightarrow}H};使得對所有的{x,z\in\chi},函數K(x,z)滿足條件{K(x,z)=\phi(x)∗\phi(z)},\\則稱K(x,z)爲核函數,\phi(x)爲映射函數。

三、拉格朗日對偶性

1.原始問題

f(x),ci(x),hj(x)Rn假設f(x), c_i(x), h_j(x)是定義在R^n 上的連續可微函數,考慮約束最優化問題:
{minxRnf(x) s.t.ci(x)0i=1,2,3,......k hj(x)=0j=1,2,3......l \begin{cases} \displaystyle\min_{x\in{R^n}}f(x) \ ① \\ s.t. c_i(x)\leq0,i = 1,2,3,......k \ ② \\ h_j(x) = 0,j = 1,2,3,......l \ ③\\ \end{cases}
則該約束最優化問題爲原始問題或者原始最優化問題。
在求解該最優化問題時,首先引入廣義拉格朗日函數(generalized Lagrange function)
L(x,α,β)=f(x)+i=1kαici(x)+j=1lβjhj(x)αi0xθp(x)=maxαβαi0L(xαβ)=maxαβαi0[f(x)+i=1kαici(x)+j=1lβjhj(x)]{L(x,\alpha,\beta)=f(x)+\displaystyle\sum_{i=1}^k\alpha_ic_i(x)+\displaystyle\sum_{j=1}^l\beta_jh_j(x)}拉格朗日乘子,且 {\alpha_i≥0}。考慮x的函數\\{\theta_p(x)=\displaystyle\max_{\alpha,\beta,\alpha_i\geq0}{L(x,\alpha,\beta)}=\displaystyle\max_{\alpha,\beta,\alpha_i\geq0}[f(x)+\displaystyle\sum_{i=1}^k\alpha_ic_i(x)+\displaystyle\sum_{j=1}^l\beta_jh_j(x)]}
xxi使ci(xi)>0xj使hj(xj)0,θp(x)=maxαβαi0L(xαβ)=+如果x 違反約束條件,即存在x_i 使得{ c_i(x_i)>0}或者存在x_j使得{h_j(x_j)≠0}, 則有\\ {\theta_p(x)=\displaystyle\max_{\alpha,\beta,\alpha_i\geq0}{L(x,\alpha,\beta)}=+\infty}
1.xi使ci(x)>0,αi+使αici(x)+2.xj使hj(xj)0βj+使βjhj(xj)βjhj(xj),αβ0θp(x)=+1.若x_i 使約束條件 c_i(x)>0, 則令\alpha_i\rightarrow+\infty, 使得\\\alpha_ic_i(x)\rightarrow+\infty; 2.若x_j 使得約束條件h_j(x_j)≠0, 則令\beta_j\rightarrow+\infty,使得\\βjhj(xj)→∞βjhj(xj)→∞, 同時令其餘\alpha,\beta均取0,可得\theta_p(x)=+\infty 。
所以有:
θp(x)={f(x) x滿+ \theta_p(x)=\begin{cases} f(x) \ x 滿足約束條件\\ +\infty \ 其他\\ \end{cases}
原始最優化問題轉換爲:
P=minxmaxαβαi0L(xαβ)P{P^*=\displaystyle\min_{x}\displaystyle\max_{\alpha,\beta,\alpha_i\geq0}{L(x,\alpha,\beta)}};P^*定義爲原始問題的最優值。

2.對偶問題

θD=minxL(xαβ)定義:{\theta_D=\displaystyle\min_{x}{L(x,\alpha,\beta)}}。

θD=minxL(xαβ)maxαβαi0θD=maxαβαi0minxL(xαβ)再考慮對\theta_D= \displaystyle\min_{x}{L(x,\alpha,\beta)}的極大化,即\\ {\displaystyle\max_{\alpha,\beta,\alpha_i\geq0}}{\theta_D}=\displaystyle\max_{\alpha,\beta,\alpha_i\geq0}\displaystyle\min_{x}{L(x,\alpha,\beta)}。

maxαβαi0minxL(xαβ)問題{\displaystyle\max_{\alpha,\beta,\alpha_i\geq0}\displaystyle\min_{x}{L(x,\alpha,\beta)}}成爲廣義拉格朗日函數的極大極小問題。
將廣義拉格朗日函數的極大極小問題表示爲約束最優化問題:
maxαβαi0θD=maxαβαi0minxL(xαβ){\displaystyle\max_{\alpha,\beta,\alpha_i\geq0}{\theta_D}=\displaystyle\max_{\alpha,\beta,\alpha_i\geq0}\displaystyle\min_{x}{L(x,\alpha,\beta)}}
s.t.αi0s.t. \alpha_i\geq0
d=maxαβαi0θD稱爲原始問題的對偶問題,定義對偶問題的最優值爲:{d^∗=\displaystyle\max_{\alpha,\beta,\alpha_i\geq0}{\theta_D}}

3.原始問題與對偶問題的關係

定理1: 若原始問題與對偶問題都有最優值,則
d=maxαβαi0minxL(xαβ)minxmaxαβαi0L(xαβ)=P{d^∗=\displaystyle\max_{\alpha,\beta,\alpha_i\geq0}\displaystyle\min_{x}{L(x,\alpha,\beta)}\leq\displaystyle\min_{x}\displaystyle\max_{\alpha,\beta,\alpha_i\geq0}{L(x,\alpha,\beta)}=P^∗}。
2f(x)ci(x)hj(x)仿ci(x)x,ici(x)<0,x,α,β使xα,βP=L(xαβ)定理2:考慮原始問題與對偶問題,假設函數f(x) 和c_i(x) 是凸函數,h_j(x) 是仿射函數;\\並且假設不等式約束c_i(x)是嚴格可行的,即存在x, 對所有i 有{c_i(x)<0}, \\則存在x^∗,\alpha^∗,\beta^∗, 使得x^∗是原始問題的解,\alpha^∗,\beta^∗是對偶問題的解,\\並且 {P^∗={L(x,\alpha,\beta)}}。

  • 在滿足約束條件下,該定理保證了對偶問題求的最優解,既是對原始問題求的最優值。

3f(x)ci(x)hj(x)仿ci(x)xα,βx,α,β滿KKT定理3:考慮原始問題與對偶問題,假設函數f(x)和c_i(x)是凸函數,h_j(x)是仿射函數;\\並且假設不等式約束c_i(x)是嚴格可行的,則x^∗ 和\alpha^∗,\beta^∗ 分別原始問題和對偶問題\\解的充分必要條件是x^∗,\alpha^∗,\beta^∗ 滿足 KKT條件:
xL(x,α,β)=0αLx,α,β)=0βLx,α,β)=0▽_xL(x^∗,\alpha^∗,\beta^∗)=0\\ ▽αLx^∗,\alpha^∗,\beta^∗)=0\\ ▽βLx^∗,\alpha^∗,\beta^∗)=0
αici(x)=0,i=1,2,kα\alpha^∗_ic_i(x^*)=0,i=1,2,……,k這條重要,在優化\alphaKKTci(x)0,i=1,2,kαi0,i=1,2,khj(xj)=0,j=1,2,l選擇第一個變量的依據是違反KKT 條件,就是違反了這一條\\ c_i(x^∗)\leq0, i=1,2,……,k\\ \alpha^∗_i\geq0, i=1,2,……,k\\ h_j(x_j^*)=0, j=1,2,……,l

  • 該定理提供了對偶問題和原始問題求解的方法。

4.目標函數

SVM 算法的分類思想是求得一個幾何間隔最大的分離超平面,即最大間隔分離超平面,可表示爲以下約束問題:
maxω,bγs.t. yi(ωωxi+bω)γ,i=1,2,N{\displaystyle\max_{\omega,b}{\gamma }\\ s.t. \ y_i(\frac{\omega}{\Vert\omega \Vert}*x_i+\frac{b}{\Vert\omega \Vert})≥\gamma , i=1,2,…N}
γ,γγ=γ^ω最大化分離超平面與訓練數據集的幾何間隔\gamma , 約束條件保證了所有樣本點與分\\離超平面的幾何間隔至少爲γ。\\ 根據幾何間隔與函數間隔的關係,\gamma=\frac{\hat\gamma}{\Vert\omega \Vert}, 上述問題可轉換爲:
maxω,bγ^ωs.t.yi(ωxi+b)γ^,i=1,2,N\displaystyle\max_{\omega,b}\frac{\hat\gamma}{\Vert\omega \Vert}\\ s.t. y_i(\omega∗x_i+b)\geq\hat\gamma, i=1,2,…N
γ^γ^=1()1ωω2滿1ξ0(ξ)s.t.yi(ωxi+b)1ξi,i=1,2,N由於函數間隔\hat\gamma的取值不影響最優化問題,可取{\hat\gamma=1}(線性可分支持向量機)。\\對\frac{1}{\Vert\omega \Vert}求極大值,可轉換爲求{\Vert\omega \Vert}^2的極小值。\\但在線性不可分訓練集中,某些樣本點可能不滿足函數間隔大於等於1的約束條件。\\所以,對每個樣本點引入一個鬆弛變量{\xi\geq0}。(在機器學習實戰中,\xi稱爲容錯率)\\因此上述約束條件改爲: {s.t. y_i(\omega∗x_i+b)\geq1−\xi_i, i=1,2,…N}
minωbξ12ω2+Ci=1Nξi ; s.t.yi(ωxi+b)1ξici(x)ξi0,i=1,2,NC0CCboostingSVMSVMboosting使12ω2使C調ξi=0SVM於是,可得目標函數,即最優化問題轉換爲:\\ {\displaystyle\min_{\omega,b,\xi}{\frac{1}{2}{\Vert\omega \Vert}^2+C\displaystyle\sum_{i=1}^N\xi_i} \ ; \ s.t. y_i(\omega∗x_i+b)\geq1−\xi_i}\\這一項就是拉格朗日對偶性中的{c_i(x) \xi_i\geq0, i=1,2,……,N}\\ {C\geq0}是懲罰參數, C值大時對誤分類的懲罰增加,C值小時對誤分類的懲罰減小\\(boosting的原理也是懲罰誤分類點(機器學習實戰SVM篇小結處問SVM和boosting 的相似處))。\\最小化目標函數,一方面使間隔儘量大({\frac{1}{2}{\Vert\omega \Vert}^2}儘量小),同時,使誤分類點的個數儘量減小。\\C是調節二者的係數。 當\xi_i=0時,爲線性可分SVM 的參數優化模型。
在這裏插入圖片描述
約束條件①②③④⑤
{αi(yi(ωx+b)1+ξi)=0 Cαiμi=0 αi0 μi0 αiμi=0 \begin{cases} \alpha_i(y_i(\omega*x+b)-1+\xi_i)=0 \ ①\\ C-\alpha_i-\mu_i=0 \ ②\\ \alpha_i\geq0 \ ③\\ \mu_i\geq0 \ ④\\ \alpha_i\mu_i=0 \ ⑤\\ \end{cases}
αi(yi(ωx+b)1+ξi)=0αixi4:αi<C,ξi=0,Aαi=C,0<ξi<1,,,Bαi=C,ξi=1,Mαi=C,ξi>1,;N{\alpha_i(y_i(\omega*x+b)-1+\xi_i)=0}及\alpha_i的取值不同,軟間隔的支持向量x_i有4種可能: 若{\alpha_i<C,則\xi_i=0},該樣本點恰好落在間隔邊界上,如點A\\ 若{\alpha_i=C,0<\xi_i<1},則分類正確,該樣本落在間隔邊界和分離超平面之間,如點B\\ 若{\alpha_i=C,\xi_i=1},則該樣本落在分離超平面之間,如點M\\ 若{\alpha_i=C,\xi_i>1},則該樣本落在分離超平面誤分的一側; 如點N

四、sklearn中的SVM

1.準備一個簡單二分類數據集

import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets
iris = datasets.load_iris()
x = iris.data
y = iris.target
# 只做一個簡單的二分類
x = x[y<2, :2]
y = y[y<2]
plt.scatter(x[y==0, 0], x[y==0, 1])
plt.scatter(x[y==1, 0], x[y==1, 1])
plt.show()

在這裏插入圖片描述
2.實現svm,先使用一個比較大的C

# 標準化數據
from sklearn.preprocessing import StandardScaler
from sklearn.svm import LinearSVC
standardscaler = StandardScaler()
standardscaler.fit(x)
x_standard = standardscaler.transform(x)
svc = LinearSVC(C=1e9)
svc.fit(x_standard, y)
def plot_decision_boundary(model, axis):
    x0, x1 = np.meshgrid(np.linspace(axis[0], axis[1], int((axis[1] - axis[0])*100)).reshape(1, -1),np.linspace(axis[2], axis[3], int((axis[3] - axis[2])*100)).reshape(1, -1),)
    x_new = np.c_[x0.ravel(), x1.ravel()]
    y_predict = model.predict(x_new)
    zz = y_predict.reshape(x0.shape)
    from matplotlib.colors import ListedColormap
    custom_cmap = ListedColormap(['#EF9A9A','#FFF59D','#90CAF9'])
plt.contourf(x0, x1, zz, linewidth=5, cmap=custom_cmap)
plot_decision_boundary(svc, axis=[-3, 3, -3, 3])
plt.scatter(x_standard[y==0, 0], x_standard[y==0, 1], color='red')
plt.scatter(x_standard[y==1, 0], x_standard[y==1, 1], color='blue')
plt.show()

在這裏插入圖片描述
3.使用一個比較小的C,對比C取不同值的效果

svc2 = LinearSVC(C=0.01)
svc2.fit(x_standard, y)
plot_decision_boundary(svc2, axis=[-3, 3, -3, 3])
plt.scatter(x_standard[y==0, 0], x_standard[y==0, 1], color='red')
plt.scatter(x_standard[y==1, 0], x_standard[y==1, 1], color='blue')
plt.show()

在這裏插入圖片描述
對比兩幅圖可以發現,當C較小時,誤將一個紅色的點分到藍色當中,這也再次驗證了當C越小,就意味着有更大的容錯空間
4.查看線性SVM的截距和係數

svc.coef_
svc.intercept_

在這裏插入圖片描述
5.畫出除了決策邊界以外的兩條跟支持向量相關的直線

def plot_svc_decision_boundary(model, axis):
    x0, x1 = np.meshgrid(np.linspace(axis[0], axis[1], int((axis[1] - axis[0])*100)).reshape(1, -1),np.linspace(axis[2], axis[3], int((axis[3] - axis[2])*100)).reshape(1, -1),)
    x_new = np.c_[x0.ravel(), x1.ravel()]
    y_predict = model.predict(x_new)
    zz = y_predict.reshape(x0.shape)
    from matplotlib.colors import ListedColormap
    custom_cmap = ListedColormap(['#EF9A9A', '#FFF59D', '#90CAF9'])
    plt.contourf(x0, x1, zz, linewidth=5, cmap=custom_cmap)
    w = model.coef_[0]
    b = model.intercept_[0]
    # w0*x0 + w1*x1 + b = 0
    # x1 = -w0/w1 * x0 - b/w1
    plot_x = np.linspace(axis[0], axis[1], 200)
    up_y = -w[0]/w[1] * plot_x - b/w[1] + 1/w[1]
    down_y = -w[0]/w[1] * plot_x - b/w[1] - 1/w[1]
    up_index = (up_y >= axis[2]) & (up_y <= axis[3])
    down_index = (down_y >= axis[2]) & (down_y <= axis[3])
    plt.plot(plot_x[up_index], up_y[up_index], color='black')
    plt.plot(plot_x[down_index], down_y[down_index], color='black')
plot_svc_decision_boundary(svc, axis=[-3, 3, -3, 3])
plt.scatter(x_standard[y==0, 0], x_standard[y==0, 1], color='red')
plt.scatter(x_standard[y==1, 0], x_standard[y==1, 1], color='blue')
plt.show()

在這裏插入圖片描述

plot_svc_decision_boundary(svc2, axis=[-3, 3, -3, 3])
plt.scatter(x_standard[y==0, 0], x_standard[y==0, 1], color='red')
plt.scatter(x_standard[y==1, 0], x_standard[y==1, 1], color='blue')
plt.show()

在這裏插入圖片描述

svc3 = LinearSVC(C=0.1)
svc3.fit(x_standard, y)
# 從上述結果可以看出sklearn中對於svm封裝的linearSVC默認對於多分類使用ovr,L2正則。
plot_svc_decision_boundary(svc3, axis=[-3, 3, -3, 3])
plt.scatter(x_standard[y==0, 0], x_standard[y==0, 1], color='red')
plt.scatter(x_standard[y==1, 0], x_standard[y==1, 1], color='blue')
plt.show()

在這裏插入圖片描述

五、SVM中使用多項式特徵

1.svm解決非線性問題,先生成數據集

import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets
x, y = datasets.make_moons()
#x.shape
#y.shape
plt.scatter(x[y==0, 0], x[y==0, 1])
plt.scatter(x[y==1, 0], x[y==1, 1])
plt.show()

在這裏插入圖片描述
2.給數據添加一些隨機噪聲

x, y = datasets.make_moons(noise=0.15, random_state=666)
plt.scatter(x[y==0, 0], x[y==0, 1])
plt.scatter(x[y==1, 0], x[y==1, 1])
plt.show()

在這裏插入圖片描述

from sklearn.preprocessing import PolynomialFeatures, StandardScaler
from sklearn.svm import LinearSVC
from sklearn.pipeline import Pipeline
def PolynomiaSVC(degree, C=1.0):
    return Pipeline([('poly', PolynomialFeatures(degree=degree)),('std_scale', StandardScaler()),('linear_svc', LinearSVC(C=C))])
poly_svc = PolynomiaSVC(degree=3)
poly_svc.fit(x, y)
def plot_decision_boundary(model, axis):
    x0, x1 = np.meshgrid(np.linspace(axis[0], axis[1], int((axis[1] - axis[0])*100)).reshape(1, -1),np.linspace(axis[2], axis[3], int((axis[3] - axis[2])*100)).reshape(1, -1),)
    x_new = np.c_[x0.ravel(), x1.ravel()]
    y_predict = model.predict(x_new)
    zz = y_predict.reshape(x0.shape)
    from matplotlib.colors import ListedColormap
    custom_cmap = ListedColormap(['#EF9A9A', '#FFF59D', '#90CAF9'])
    plt.contourf(x0, x1, zz, linewidth=5, cmap=custom_cmap)
plot_decision_boundary(poly_svc, axis=[-1.5, 2.5, -1.0, 1.5])
plt.scatter(x[y==0, 0], x[y==0, 1])
plt.scatter(x[y==1, 0], x[y==1, 1])
plt.show()

在這裏插入圖片描述
除了使用這種增加多項式特徵之後再給入線性svc中之外,還有一種方法可以實現類似的功能

from sklearn.svm import SVC
# 這種方法訓練的過程並不完全是先將數據進行標準化,再使用linearSVC這麼一個過程
# SVC中默認的C=0
def PolynomiaKernelSVC(degree, C=1.0):
    return Pipeline([('std_scale', StandardScaler()),('kernel_svc', SVC(kernel='poly', degree=degree, C=C))])# poly代表多項式特徵
poly_kernel_svc = PolynomiaKernelSVC(degree=3)
poly_kernel_svc.fit(x, y)
plot_decision_boundary(poly_svc, axis=[-1.5, 2.5, -1.0, 1.5])
plt.scatter(x[y==0, 0], x[y==0, 1])
plt.scatter(x[y==1, 0], x[y==1, 1])
plt.show()

在這裏插入圖片描述
是svm中kernel函數

六、高斯核函數

高斯核函數的目的就是將每一個樣本點映射到一個無窮維的特徵空間。實質上就是把一個mn維的數據映射成了mm的數據。由於理論上數據量可以是無窮維,所以說是映射到一個無窮維空間中。
在這裏插入圖片描述
1.通過高斯核函數映射來更加直觀地理解整個映射的過程

import numpy as np
import matplotlib.pyplot as plt
x = np.arange(-4, 5, 1)
y = np.array((x >= -2) & (x <= 2), dtype='int')
# array([0, 0, 1, 1, 1, 1, 1, 0, 0])
plt.scatter(x[y==0], [0] * len(x[y==0]))
plt.scatter(x[y==1], [0] * len(x[y==1]))
plt.show()

在這裏插入圖片描述

def gaussian(x, l):
    gamma = 1.0
    return np.exp(-gamma *(x-l)**2)
l1, l2 = -1, 1
x_new = np.empty((len(x), 2))
for i,data in enumerate(x):
    x_new[i, 0] = gaussian(data, l1)
    x_new[i, 1] = gaussian(data, l2)
plt.scatter(x_new[y==0, 0], x_new[y==0, 1])
plt.scatter(x_new[y==1, 0], x_new[y==1, 1])
plt.show()

在這裏插入圖片描述
真正的高斯核函數實現的過程中並不是固定的landmark,而是對於每一個數據點都是landmark
在這裏插入圖片描述
在這裏插入圖片描述
gamma越大,高斯分佈越寬;

gamma越小,高斯分佈越窄。
2.使用sklearn中封裝的高斯核函數

import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets
x, y = datasets.make_moons(noise=0.15, random_state=666)
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVC
from sklearn.pipeline import Pipeline
def RBFKernelSVC(gamma=1.0):
    return Pipeline([('std_scale', StandardScaler()),('svc', SVC(kernel='rbf', gamma=gamma))])
svc = RBFKernelSVC(gamma=1.0)
svc.fit(x, y)
def plot_decision_boundary(model, axis):
    x0, x1 = np.meshgrid(np.linspace(axis[0], axis[1], int((axis[1] - axis[0])*100)).reshape(1, -1),np.linspace(axis[2], axis[3], int((axis[3] - axis[2])*100)).reshape(1, -1),)
    x_new = np.c_[x0.ravel(), x1.ravel()]
    y_predict = model.predict(x_new)
    zz = y_predict.reshape(x0.shape)
    from matplotlib.colors import ListedColormap
    custom_cmap = ListedColormap(['#EF9A9A', '#FFF59D', '#90CAF9'])
    plt.contourf(x0, x1, zz, linewidth=5, cmap=custom_cmap)
plot_decision_boundary(svc, axis=[-1.5, 2.5, -1.0, 1.5])
plt.scatter(x[y==0, 0], x[y==0, 1])
plt.scatter(x[y==1, 0], x[y==1, 1])
plt.show()

在這裏插入圖片描述

svc_gamma100 = RBFKernelSVC(gamma=100)
svc_gamma100.fit(x, y)
plot_decision_boundary(svc_gamma100, axis=[-1.5, 2.5, -1.0, 1.5])
plt.scatter(x[y==0, 0], x[y==0, 1])
plt.scatter(x[y==1, 0], x[y==1, 1])
plt.show()

在這裏插入圖片描述

svc_gamma10 = RBFKernelSVC(gamma=10)
svc_gamma10.fit(x, y)
plot_decision_boundary(svc_gamma10, axis=[-1.5, 2.5, -1.0, 1.5])
plt.scatter(x[y==0, 0], x[y==0, 1])
plt.scatter(x[y==1, 0], x[y==1, 1])
plt.show()

在這裏插入圖片描述

svc_gamma01 = RBFKernelSVC(gamma=0.1)
svc_gamma01.fit(x, y)
plot_decision_boundary(svc_gamma01, axis=[-1.5, 2.5, -1.0, 1.5])
plt.scatter(x[y==0, 0], x[y==0, 1])
plt.scatter(x[y==1, 0], x[y==1, 1])
plt.show()

在這裏插入圖片描述
gamma相當於是在調節模型的複雜度,gammma越小模型複雜度越低,gamma越高模型複雜度越高。因此需要調節超參數gamma平衡過擬合和欠擬合。

七、SVM解決迴歸問題

1.在sklearn中實現SVM解決迴歸問題(在margin區域內的點越多越好)

import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets
boston = datasets.load_boston()
x = boston.data
y = boston.target
from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(x, y, random_state=888)
from sklearn.svm import SVR
from sklearn.svm import LinearSVR
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline
def StandardLinearSVR(epsilon=0.1):
    return Pipeline([
        ('std_scale', StandardScaler()),
        # C, kernel, 等超參需要調節
        ('linear_svr', LinearSVR(epsilon=epsilon))])
svr = StandardLinearSVR()
svr.fit(x_train, y_train)
svr.score(x_test, y_test)

在這裏插入圖片描述
由上圖輸出結果可知,準確率0.703其實並不高,這是因爲使用了默認的參數,超參數epsilon,C,kernel等的設置,包括使用交叉驗證等等,可以逐步提高準確率。

參考文獻

  • 《統計學習方法》 李航
  • 支持向量機-課件-518.docx
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章