一、線性數據處理

1、未標準化的原始數據顯示

import numpy as np
import matplotlib.pyplot as plt

from sklearn import datasets
from sklearn.preprocessing import StandardScaler
from sklearn.svm import LinearSVC

iris = datasets.load_iris()

X = iris.data
y = iris.target

X = X [y<2,:2] #只取y<2的類別，也就是0 1 並且只取前兩個特徵
y = y[y<2] # 只取y<2的類別

# 分別畫出類別0和1的點
plt.scatter(X[y==0,0],X[y==0,1],color='red') 
plt.scatter(X[y==1,0],X[y==1,1],color='blue')
plt.show()

# 標準化
standardScaler = StandardScaler()

standardScaler.fit(X) #計算訓練數據的均值和方差
X_standard = standardScaler.transform(X) #再用scaler中的均值和方差來轉換X，使X標準化

svc = LinearSVC(C=1e9) #線性SVM分類器
svc.fit(X_standard,y) # 訓練svm

原始數據結果如下：

2、決策邊界繪製

def plot_decision_boundary(model, axis):
    
    x0, x1 = np.meshgrid(
        np.linspace(axis[0], axis[1], int((axis[1]-axis[0])*100)).reshape(-1,1),
        np.linspace(axis[2], axis[3], int((axis[3]-axis[2])*100)).reshape(-1,1)
    )
    X_new = np.c_[x0.ravel(), x1.ravel()]
    
    y_predict = model.predict(X_new)
    zz = y_predict.reshape(x0.shape)
    
    from matplotlib.colors import ListedColormap
    custom_cmap = ListedColormap(['#EF9A9A','#FFF59D','#90CAF9'])
    
    plt.contourf(x0, x1, zz, linewidth=5, cmap=custom_cmap)


# 繪製決策邊界
plot_decision_boundary(svc,axis=[-3,3,-3,3]) # x,y軸都在-3到3之間
# 繪製原始數據
plt.scatter(X_standard[y==0,0],X_standard[y==0,1],color='red') 
plt.scatter(X_standard[y==1,0],X_standard[y==1,1],color='blue')
plt.show()

運行結果如下：

3、再次實例化一個SVC，並傳入一個較小的 CC

svc2 = LinearSVC(C=0.01)
svc2.fit(X_standard,y)
plot_decision_boundary(svc2,axis=[-3,3,-3,3]) # x,y軸都在-3到3之間
# 繪製原始數據
plt.scatter(X_standard[y==0,0],X_standard[y==0,1],color='red') 
plt.scatter(X_standard[y==1,0],X_standard[y==1,1],color='blue')
plt.show()

運行結果如下：

可以很明顯的看到和第一個決策邊界的不同，在這個決策邊界彙總，有一個紅點是分類錯誤的。CC 越小容錯空間越大。我們可以通過 svc.coef_ 來獲取學習到的權重係數, svc.intercept_ 獲取偏差。

二、非線性數據處理

1、生成月亮數據

(1）月亮數據生成

import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets

X, y = datasets.make_moons() #使用生成的數據
print(X.shape) # (100,2)
print(y.shape) # (100,)

運行結果：

(2）月亮數據顯示

plt.scatter(X[y==0,0],X[y==0,1]) 
plt.scatter(X[y==1,0],X[y==1,1])
plt.show()

運行結果：

2、增加噪聲點

X, y = datasets.make_moons(noise=0.15,random_state=777) #隨機生成噪聲點，random_state是隨機種子，noise是方差

plt.scatter(X[y==0,0],X[y==0,1]) 
plt.scatter(X[y==1,0],X[y==1,1])
plt.show()

運行結果：

3、通過多項式特徵的SVM分類

from sklearn.preprocessing import PolynomialFeatures,StandardScaler
from sklearn.svm import LinearSVC
from sklearn.pipeline import Pipeline

def PolynomialSVC(degree,C=1.0):
    return Pipeline([
        ("poly",PolynomialFeatures(degree=degree)),#生成多項式
        ("std_scaler",StandardScaler()),#標準化
        ("linearSVC",LinearSVC(C=C))#最後生成svm
    ])

poly_svc = PolynomialSVC(degree=3)
poly_svc.fit(X,y)

plot_decision_boundary(poly_svc,axis=[-1.5,2.5,-1.0,1.5])
plt.scatter(X[y==0,0],X[y==0,1]) 
plt.scatter(X[y==1,0],X[y==1,1])
plt.show()

運行結果：

我們可以看到，生成的邊界不再是線性的直線了。

4、高維空間線性SVM處理

我們還可以使用核技巧來對數據進行處理，使其維度提升，使原本線性不可分的數據，在高維空間變成線性可分的。再用線性SVM來進行處理。

from sklearn.svm import SVC

def PolynomialKernelSVC(degree,C=1.0):
    return Pipeline([
        ("std_scaler",StandardScaler()),
        ("kernelSVC",SVC(kernel="poly")) # poly代表多項式特徵
    ])

poly_kernel_svc = PolynomialKernelSVC(degree=3)
poly_kernel_svc.fit(X,y)

plot_decision_boundary(poly_kernel_svc,axis=[-1.5,2.5,-1.0,1.5])
plt.scatter(X[y==0,0],X[y==0,1]) 
plt.scatter(X[y==1,0],X[y==1,1])
plt.show()

運行結果：

可以看到這種方式也生成了一個非線性的邊界。這裏 SVC(kernel=“poly”) 有個參數是 kernel ，就是核函數。

三、核函數

1.核函數定義

核函數包括線性核函數、多項式核函數、高斯核函數等，其中高斯核函數最常用，可以將數據映射到無窮維，也叫做徑向基函數（Radial Basis Function 簡稱 RBF），是某種沿徑向對稱的標量函數。在機器學習中常用的核函數，一般有這麼幾類，也就是LibSVM中自帶的這幾類：

2.高斯核函數定義

3.測試數據集生成

import numpy as np
import matplotlib.pyplot as plt

x = np.arange(-4,5,1)#生成測試數據
y = np.array((x >= -2 ) & (x <= 2),dtype='int')

plt.scatter(x[y==0],[0]*len(x[y==0]))# x取y=0的點, y取0，有多少個x，就有多少個y
plt.scatter(x[y==1],[0]*len(x[y==1]))
plt.show()

運行結果：

4、數據集升維處理

# 高斯核函數
def gaussian(x,l):
    gamma = 1.0
    return np.exp(-gamma * (x -l)**2)

l1,l2 = -1,1
X_new = np.empty((len(x),2)) #len(x) ,2
for i,data in enumerate(x):
    X_new[i,0] = gaussian(data,l1)
    X_new[i,1] = gaussian(data,l2)
    
plt.scatter(X_new[y==0,0],X_new[y==0,1])
plt.scatter(X_new[y==1,0],X_new[y==1,1])
plt.show()

對於這樣的二維數據顯然是線性可分的

四、超參數

1、超參數定義

超參數：

定義關於模型的更高層次的概念，如複雜性或學習能力。
-不能直接從標準模型培訓過程中的數據中學習，需要預先定義。
可以通過設置不同的值，訓練不同的模型和選擇更好的測試值來決定
高斯函數：

2、生成數據集

import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets

X,y = datasets.make_moons(noise=0.15,random_state=777)
plt.scatter(X[y==0,0],X[y==0,1])
plt.scatter(X[y==1,0],X[y==1,1])
plt.show()

運行結果：

3、定義一個RBF核的SVM

from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVC
from sklearn.pipeline import Pipeline

def RBFKernelSVC(gamma=1.0):
    return Pipeline([
        ('std_scaler',StandardScaler()),
        ('svc',SVC(kernel='rbf',gamma=gamma))
    ])

svc = RBFKernelSVC()
svc.fit(X,y)

plot_decision_boundary(svc,axis=[-1.5,2.5,-1.0,1.5])
plt.scatter(X[y==0,0],X[y==0,1]) 
plt.scatter(X[y==1,0],X[y==1,1])
plt.show()

運行結果：

4、修改 $γ$ 值

（1） $γ$ =100

from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVC
from sklearn.pipeline import Pipeline

def RBFKernelSVC(gamma=1.0):
    return Pipeline([
        ('std_scaler',StandardScaler()),
        ('svc',SVC(kernel='rbf',gamma=gamma))
    ])

svc = RBFKernelSVC(100)
svc.fit(X,y)

plot_decision_boundary(svc,axis=[-1.5,2.5,-1.0,1.5])
plt.scatter(X[y==0,0],X[y==0,1]) 
plt.scatter(X[y==1,0],X[y==1,1])
plt.show()

運行結果：

（2） $γ$ =10

from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVC
from sklearn.pipeline import Pipeline

def RBFKernelSVC(gamma=1.0):
    return Pipeline([
        ('std_scaler',StandardScaler()),
        ('svc',SVC(kernel='rbf',gamma=gamma))
    ])

svc = RBFKernelSVC(10)
svc.fit(X,y)

plot_decision_boundary(svc,axis=[-1.5,2.5,-1.0,1.5])
plt.scatter(X[y==0,0],X[y==0,1]) 
plt.scatter(X[y==1,0],X[y==1,1])
plt.show()

$\gamma$ 取值越大，就是高斯分佈的鐘形圖越窄，這裏相當於每個樣本點都形成了鐘形圖。很明顯這樣是過擬合的

（3） $γ$ =0.1

from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVC
from sklearn.pipeline import Pipeline

def RBFKernelSVC(gamma=1.0):
    return Pipeline([
        ('std_scaler',StandardScaler()),
        ('svc',SVC(kernel='rbf',gamma=gamma))
    ])

svc = RBFKernelSVC(0.1)
svc.fit(X,y)

plot_decision_boundary(svc,axis=[-1.5,2.5,-1.0,1.5])
plt.scatter(X[y==0,0],X[y==0,1]) 
plt.scatter(X[y==1,0],X[y==1,1])
plt.show()

此時它是欠擬合的。
因此，我們可以看出 \gamma γ 值相當於在調整模型的複雜度。

分析：比較修改 $\gamma$ 值, $\gamma$ =100時，數據集分類更準確。

5、預測準確度

import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets

boston = datasets.load_boston()
X = boston.data
y = boston.target

from sklearn.model_selection import train_test_split

X_train,X_test,y_train,y_test = train_test_split(X,y,random_state=777) # 把數據集拆分成訓練數據和測試數據

from sklearn.svm import LinearSVR 
from sklearn.svm import SVR
from sklearn.preprocessing import StandardScaler

def StandardLinearSVR(epsilon=0.1):
    return Pipeline([
        ('std_scaler',StandardScaler()),
        ('linearSVR',LinearSVR(epsilon=epsilon))
    ])

svr = StandardLinearSVR()
svr.fit(X_train,y_train)

svr.score(X_test,y_test) #0.6989278257702748

綜上所示，便是實驗的所有結果及過程。

支持向量機（SVM算法）詳細講解

SVM算法

一、線性數據處理

1、未標準化的原始數據顯示

2、決策邊界繪製

3、再次實例化一個SVC，並傳入一個較小的 CC

二、非線性數據處理

1、生成月亮數據

(1）月亮數據生成

(2）月亮數據顯示

2、增加噪聲點

3、通過多項式特徵的SVM分類

4、高維空間線性SVM處理

三、核函數

1.核函數定義

2.高斯核函數定義

3.測試數據集生成

4、數據集升維處理

四、超參數

1、超參數定義

2、生成數據集

3、定義一個RBF核的SVM

4、修改 $γ$ 值

（1） $γ$ =100

（2） $γ$ =10

（3） $γ$ =0.1

5、預測準確度

電子科技大學計算機科學與技術就讀體驗

Golang爬蟲代理接入的技術與實踐

大數據之Hadoop學習（七）Java API編程實例對HBase數據庫進行增刪改查等操作

基於Jupyter 完成實驗四：Python圖像處理庫（Pillow教程）

ROS下基於YOLO的px4無人機目標檢測+對應的各種問題解決辦法（親測有效，避免入坑）

（無人機）編譯make px4_sitl_default gazebo 命令遇到 c++: internal compiler error: 已殺死 (program cc1plus)錯誤

windows10（64位）Anaconda3+Python3.6搭建Tensorflow（cpu版本）及keras+用Jupyter notebook運行Kaggle狗貓數據集+提高模分類模型精度

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

支持向量機（SVM算法）詳細講解

SVM算法

一、線性數據處理

1、未標準化的原始數據顯示

2、決策邊界繪製

3、再次實例化一個SVC，並傳入一個較小的 CC

二、非線性數據處理

1、生成月亮數據

(1）月亮數據生成

(2）月亮數據顯示

2、增加噪聲點

3、通過多項式特徵的SVM分類

4、高維空間線性SVM處理

三、核函數

1.核函數定義

2.高斯核函數定義

3.測試數據集生成

4、數據集升維處理

四、超參數

1、超參數定義

2、生成數據集

3、定義一個RBF核的SVM

4、修改γγγ值

（1）γγγ=100

（2）γγγ=10

（3）γγγ=0.1

5、預測準確度

4、修改 $γ$ 值

（1） $γ$ =100

（2） $γ$ =10

（3） $γ$ =0.1