SVM目錄
一、支持向量機
支持向量機的基本思想是SVM從線性可分情況下的最優分類面發展而來。最優分類面就是要求分類線不但能將兩類正確分開(訓練錯誤率爲0),且使分類間隔最大。SVM考慮尋找一個滿足分類要求的超平面,並且使訓練集中的點距離分類面儘可能的遠,也就是尋找一個分類面使它兩側的空白區域(margin)最大。(SVM算法就是爲找到距分類樣本點間隔最大的分類超平面過兩類樣本中離分類面最近的點,且平行於最優分類面的超平面上H1,H2的訓練樣本就叫支持向量。)
上圖中直線是兩條支持直線.屬於正類的非支持向量一定位於對應1的支持直線的一側(包含邊界線),屬於負類的非支持向量一定位於對應-1的支持直線的一側(包含邊界線).而屬於正類的支持向量和屬於負類的支持向量分別位於上述兩條支持直線上由此可以體會“支持向量”一詞的由來。(如圖中的紅框框裏面的點即是支持向量)
1.線性支持向量機
給定線性可分(不可分)的訓練數據集,通過硬(軟)間隔最大化或者等價的
的求解相應的凸二次規劃問題學習得到的分離超平面爲:
以及相應的分類決策函數:
2.非線性支持向量機
從非線性分類訓練集,通過核函數與軟間隔最大化,或者凸二次優化,學習得到的分類決策函數
二、支持向量機重要概念
1.函數間隔
- 函數間隔可以表示分類預測的正確性及確信度
2.幾何間隔
;的幾何間隔最小值:
- 幾何間隔是爲樣本點到超平面的帶符號距離,當樣本被正確分類時,即爲樣本點到超平面的距離
3.核函數
三、拉格朗日對偶性
1.原始問題
則該約束最優化問題爲原始問題或者原始最優化問題。
在求解該最優化問題時,首先引入廣義拉格朗日函數(generalized Lagrange function)
所以有:
原始最優化問題轉換爲:
2.對偶問題
將廣義拉格朗日函數的極大極小問題表示爲約束最優化問題:
3.原始問題與對偶問題的關係
定理1: 若原始問題與對偶問題都有最優值,則
- 在滿足約束條件下,該定理保證了對偶問題求的最優解,既是對原始問題求的最優值。
,
- 該定理提供了對偶問題和原始問題求解的方法。
4.目標函數
SVM 算法的分類思想是求得一個幾何間隔最大的分離超平面,即最大間隔分離超平面,可表示爲以下約束問題:
約束條件①②③④⑤
四、sklearn中的SVM
1.準備一個簡單二分類數據集
import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets
iris = datasets.load_iris()
x = iris.data
y = iris.target
# 只做一個簡單的二分類
x = x[y<2, :2]
y = y[y<2]
plt.scatter(x[y==0, 0], x[y==0, 1])
plt.scatter(x[y==1, 0], x[y==1, 1])
plt.show()
2.實現svm,先使用一個比較大的C
# 標準化數據
from sklearn.preprocessing import StandardScaler
from sklearn.svm import LinearSVC
standardscaler = StandardScaler()
standardscaler.fit(x)
x_standard = standardscaler.transform(x)
svc = LinearSVC(C=1e9)
svc.fit(x_standard, y)
def plot_decision_boundary(model, axis):
x0, x1 = np.meshgrid(np.linspace(axis[0], axis[1], int((axis[1] - axis[0])*100)).reshape(1, -1),np.linspace(axis[2], axis[3], int((axis[3] - axis[2])*100)).reshape(1, -1),)
x_new = np.c_[x0.ravel(), x1.ravel()]
y_predict = model.predict(x_new)
zz = y_predict.reshape(x0.shape)
from matplotlib.colors import ListedColormap
custom_cmap = ListedColormap(['#EF9A9A','#FFF59D','#90CAF9'])
plt.contourf(x0, x1, zz, linewidth=5, cmap=custom_cmap)
plot_decision_boundary(svc, axis=[-3, 3, -3, 3])
plt.scatter(x_standard[y==0, 0], x_standard[y==0, 1], color='red')
plt.scatter(x_standard[y==1, 0], x_standard[y==1, 1], color='blue')
plt.show()
3.使用一個比較小的C,對比C取不同值的效果
svc2 = LinearSVC(C=0.01)
svc2.fit(x_standard, y)
plot_decision_boundary(svc2, axis=[-3, 3, -3, 3])
plt.scatter(x_standard[y==0, 0], x_standard[y==0, 1], color='red')
plt.scatter(x_standard[y==1, 0], x_standard[y==1, 1], color='blue')
plt.show()
對比兩幅圖可以發現,當C較小時,誤將一個紅色的點分到藍色當中,這也再次驗證了當C越小,就意味着有更大的容錯空間
4.查看線性SVM的截距和係數
svc.coef_
svc.intercept_
5.畫出除了決策邊界以外的兩條跟支持向量相關的直線
def plot_svc_decision_boundary(model, axis):
x0, x1 = np.meshgrid(np.linspace(axis[0], axis[1], int((axis[1] - axis[0])*100)).reshape(1, -1),np.linspace(axis[2], axis[3], int((axis[3] - axis[2])*100)).reshape(1, -1),)
x_new = np.c_[x0.ravel(), x1.ravel()]
y_predict = model.predict(x_new)
zz = y_predict.reshape(x0.shape)
from matplotlib.colors import ListedColormap
custom_cmap = ListedColormap(['#EF9A9A', '#FFF59D', '#90CAF9'])
plt.contourf(x0, x1, zz, linewidth=5, cmap=custom_cmap)
w = model.coef_[0]
b = model.intercept_[0]
# w0*x0 + w1*x1 + b = 0
# x1 = -w0/w1 * x0 - b/w1
plot_x = np.linspace(axis[0], axis[1], 200)
up_y = -w[0]/w[1] * plot_x - b/w[1] + 1/w[1]
down_y = -w[0]/w[1] * plot_x - b/w[1] - 1/w[1]
up_index = (up_y >= axis[2]) & (up_y <= axis[3])
down_index = (down_y >= axis[2]) & (down_y <= axis[3])
plt.plot(plot_x[up_index], up_y[up_index], color='black')
plt.plot(plot_x[down_index], down_y[down_index], color='black')
plot_svc_decision_boundary(svc, axis=[-3, 3, -3, 3])
plt.scatter(x_standard[y==0, 0], x_standard[y==0, 1], color='red')
plt.scatter(x_standard[y==1, 0], x_standard[y==1, 1], color='blue')
plt.show()
plot_svc_decision_boundary(svc2, axis=[-3, 3, -3, 3])
plt.scatter(x_standard[y==0, 0], x_standard[y==0, 1], color='red')
plt.scatter(x_standard[y==1, 0], x_standard[y==1, 1], color='blue')
plt.show()
svc3 = LinearSVC(C=0.1)
svc3.fit(x_standard, y)
# 從上述結果可以看出sklearn中對於svm封裝的linearSVC默認對於多分類使用ovr,L2正則。
plot_svc_decision_boundary(svc3, axis=[-3, 3, -3, 3])
plt.scatter(x_standard[y==0, 0], x_standard[y==0, 1], color='red')
plt.scatter(x_standard[y==1, 0], x_standard[y==1, 1], color='blue')
plt.show()
五、SVM中使用多項式特徵
1.svm解決非線性問題,先生成數據集
import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets
x, y = datasets.make_moons()
#x.shape
#y.shape
plt.scatter(x[y==0, 0], x[y==0, 1])
plt.scatter(x[y==1, 0], x[y==1, 1])
plt.show()
2.給數據添加一些隨機噪聲
x, y = datasets.make_moons(noise=0.15, random_state=666)
plt.scatter(x[y==0, 0], x[y==0, 1])
plt.scatter(x[y==1, 0], x[y==1, 1])
plt.show()
from sklearn.preprocessing import PolynomialFeatures, StandardScaler
from sklearn.svm import LinearSVC
from sklearn.pipeline import Pipeline
def PolynomiaSVC(degree, C=1.0):
return Pipeline([('poly', PolynomialFeatures(degree=degree)),('std_scale', StandardScaler()),('linear_svc', LinearSVC(C=C))])
poly_svc = PolynomiaSVC(degree=3)
poly_svc.fit(x, y)
def plot_decision_boundary(model, axis):
x0, x1 = np.meshgrid(np.linspace(axis[0], axis[1], int((axis[1] - axis[0])*100)).reshape(1, -1),np.linspace(axis[2], axis[3], int((axis[3] - axis[2])*100)).reshape(1, -1),)
x_new = np.c_[x0.ravel(), x1.ravel()]
y_predict = model.predict(x_new)
zz = y_predict.reshape(x0.shape)
from matplotlib.colors import ListedColormap
custom_cmap = ListedColormap(['#EF9A9A', '#FFF59D', '#90CAF9'])
plt.contourf(x0, x1, zz, linewidth=5, cmap=custom_cmap)
plot_decision_boundary(poly_svc, axis=[-1.5, 2.5, -1.0, 1.5])
plt.scatter(x[y==0, 0], x[y==0, 1])
plt.scatter(x[y==1, 0], x[y==1, 1])
plt.show()
除了使用這種增加多項式特徵之後再給入線性svc中之外,還有一種方法可以實現類似的功能
from sklearn.svm import SVC
# 這種方法訓練的過程並不完全是先將數據進行標準化,再使用linearSVC這麼一個過程
# SVC中默認的C=0
def PolynomiaKernelSVC(degree, C=1.0):
return Pipeline([('std_scale', StandardScaler()),('kernel_svc', SVC(kernel='poly', degree=degree, C=C))])# poly代表多項式特徵
poly_kernel_svc = PolynomiaKernelSVC(degree=3)
poly_kernel_svc.fit(x, y)
plot_decision_boundary(poly_svc, axis=[-1.5, 2.5, -1.0, 1.5])
plt.scatter(x[y==0, 0], x[y==0, 1])
plt.scatter(x[y==1, 0], x[y==1, 1])
plt.show()
是svm中kernel函數
六、高斯核函數
高斯核函數的目的就是將每一個樣本點映射到一個無窮維的特徵空間。實質上就是把一個mn維的數據映射成了mm的數據。由於理論上數據量可以是無窮維,所以說是映射到一個無窮維空間中。
1.通過高斯核函數映射來更加直觀地理解整個映射的過程
import numpy as np
import matplotlib.pyplot as plt
x = np.arange(-4, 5, 1)
y = np.array((x >= -2) & (x <= 2), dtype='int')
# array([0, 0, 1, 1, 1, 1, 1, 0, 0])
plt.scatter(x[y==0], [0] * len(x[y==0]))
plt.scatter(x[y==1], [0] * len(x[y==1]))
plt.show()
def gaussian(x, l):
gamma = 1.0
return np.exp(-gamma *(x-l)**2)
l1, l2 = -1, 1
x_new = np.empty((len(x), 2))
for i,data in enumerate(x):
x_new[i, 0] = gaussian(data, l1)
x_new[i, 1] = gaussian(data, l2)
plt.scatter(x_new[y==0, 0], x_new[y==0, 1])
plt.scatter(x_new[y==1, 0], x_new[y==1, 1])
plt.show()
真正的高斯核函數實現的過程中並不是固定的landmark,而是對於每一個數據點都是landmark
gamma越大,高斯分佈越寬;
gamma越小,高斯分佈越窄。
2.使用sklearn中封裝的高斯核函數
import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets
x, y = datasets.make_moons(noise=0.15, random_state=666)
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVC
from sklearn.pipeline import Pipeline
def RBFKernelSVC(gamma=1.0):
return Pipeline([('std_scale', StandardScaler()),('svc', SVC(kernel='rbf', gamma=gamma))])
svc = RBFKernelSVC(gamma=1.0)
svc.fit(x, y)
def plot_decision_boundary(model, axis):
x0, x1 = np.meshgrid(np.linspace(axis[0], axis[1], int((axis[1] - axis[0])*100)).reshape(1, -1),np.linspace(axis[2], axis[3], int((axis[3] - axis[2])*100)).reshape(1, -1),)
x_new = np.c_[x0.ravel(), x1.ravel()]
y_predict = model.predict(x_new)
zz = y_predict.reshape(x0.shape)
from matplotlib.colors import ListedColormap
custom_cmap = ListedColormap(['#EF9A9A', '#FFF59D', '#90CAF9'])
plt.contourf(x0, x1, zz, linewidth=5, cmap=custom_cmap)
plot_decision_boundary(svc, axis=[-1.5, 2.5, -1.0, 1.5])
plt.scatter(x[y==0, 0], x[y==0, 1])
plt.scatter(x[y==1, 0], x[y==1, 1])
plt.show()
svc_gamma100 = RBFKernelSVC(gamma=100)
svc_gamma100.fit(x, y)
plot_decision_boundary(svc_gamma100, axis=[-1.5, 2.5, -1.0, 1.5])
plt.scatter(x[y==0, 0], x[y==0, 1])
plt.scatter(x[y==1, 0], x[y==1, 1])
plt.show()
svc_gamma10 = RBFKernelSVC(gamma=10)
svc_gamma10.fit(x, y)
plot_decision_boundary(svc_gamma10, axis=[-1.5, 2.5, -1.0, 1.5])
plt.scatter(x[y==0, 0], x[y==0, 1])
plt.scatter(x[y==1, 0], x[y==1, 1])
plt.show()
svc_gamma01 = RBFKernelSVC(gamma=0.1)
svc_gamma01.fit(x, y)
plot_decision_boundary(svc_gamma01, axis=[-1.5, 2.5, -1.0, 1.5])
plt.scatter(x[y==0, 0], x[y==0, 1])
plt.scatter(x[y==1, 0], x[y==1, 1])
plt.show()
gamma相當於是在調節模型的複雜度,gammma越小模型複雜度越低,gamma越高模型複雜度越高。因此需要調節超參數gamma平衡過擬合和欠擬合。
七、SVM解決迴歸問題
1.在sklearn中實現SVM解決迴歸問題(在margin區域內的點越多越好)
import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets
boston = datasets.load_boston()
x = boston.data
y = boston.target
from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(x, y, random_state=888)
from sklearn.svm import SVR
from sklearn.svm import LinearSVR
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline
def StandardLinearSVR(epsilon=0.1):
return Pipeline([
('std_scale', StandardScaler()),
# C, kernel, 等超參需要調節
('linear_svr', LinearSVR(epsilon=epsilon))])
svr = StandardLinearSVR()
svr.fit(x_train, y_train)
svr.score(x_test, y_test)
由上圖輸出結果可知,準確率0.703其實並不高,這是因爲使用了默認的參數,超參數epsilon,C,kernel等的設置,包括使用交叉驗證等等,可以逐步提高準確率。
參考文獻
- 《統計學習方法》 李航
- 支持向量機-課件-518.docx