1. 線性可分支持向量機

1.1 訓練集: T={(x1,y1),(x2,y2),...,(xN,yn=N)},xi∈Rn,yi∈{−1,1}

1.2 如果存在Rn 中的超平面能將T 中的正例點和負例點分開, 我們就說T 是線性可分的, 或者說T是線性可分訓練集

1.3 給定線性可分訓練集T , 通過間隔最大化策略或求解等價的凸二次優化問題得到的分離超平面

w \cdot x + b = 0

以及相應的決策函數

f (x) = s i g n (w \cdot x + b)

被稱爲線性可分支持向量機, 其中

x, w \in R n, b \in R

1.4 設(w,b) 是T 上的分離超平面, 定義T 到分離超平面的距離爲T 中距離分離超平面最近的點到(w,b) 的距離, 稱爲(w,b) 關於T 的幾何間隔, 記爲γ . 由定義可知, 必有

γ = | w \cdot x i + b | | w | = y i ( w \cdot x i + b ) | w |

, 並且滿足上述等式的點至少有一對

xi,xj 且

yi∗yj=−1 .

1.5 所謂的間隔最大化策略就是尋找(w,b) 使γ 達到最大, 爲此可表述爲一個最優化問題:

max w, b γ s . t . y i ( w \cdot x i + b ) | w | \geq γ, i = 1, 2, . . ., N

評論: 遺憾的是, 這個問題並不是一個凸優化問題, 爲了使用凸優化的理論, 我們需要把(1.5)轉化成凸優化問題.

1.6現在設

γ^= | w | γ

原問題轉化爲:

max w, b γ ^ | w | s . t . y i (w \cdot x i + b) \geq γ^, i = 1, 2, . . ., N

注意到

γ^ 的取值不會影響原問題的解(生成的分離超平面是一樣的), 因此我們取

γ^= 1

於是問題變爲:

max w, b 1 | w | s . t . y i (w \cdot x i + b) \geq 1, i = 1, 2, . . ., N

.爲了使用凸優化理論, 我們需要將原問題轉化爲最小化問題, 且目標函數變爲凸函數. 這可以通過使用

w2 代替

1|w| 成爲新的目標函數完美解決, 此時原問題轉化爲標準的凸優化問題形式:

max w, b 1 2 w 2 s . t . y i (w \cdot x i + b) - 1 \geq 0, i = 1, 2, . . ., N

這裏使用係數

12 有兩個原因: 一方面是爲了求偏導數方便, 另一方面, 考慮到最小几何間隔必在一對正負例點上同時取得(1.4), 因此我們的目標函數從一開始就可以使用

2γ 代替, 這個係數

2 最終會變爲目標函數上的

12 .

評論: 至此, 我們已經可以求解線性可分支持向量機了.但是傳統的凸優化方法用在支持向量機的求解問題上顯得太慢, 我們有專門針對求解支持向量機的最優化理論, 即KKT條件和SMO算法. 爲了使用這些理論, 我們需要利用拉格朗日對偶性理論, 將原問題做進一步變換.

1.7 引入拉格朗日乘子:

α \in R n, α i \geq 0

構造拉格朗日函數:

L (w, b, α) = 1 2 w 2 - Σ α i y i (w \cdot x i + b) + Σ α i

, 由此構建的下列最優化問題稱爲原問題的拉格朗日對偶問題:

max α min w, b L (w, b, α)

. 拉格朗日對偶性理論向我們保證: (1)如果原問題有解, 那麼對偶問題也有解 (2)設對偶問題的解爲

w∗,b∗,α∗ , 則

w∗,b∗ 是原問題的最優解.

1.8 化簡(化簡過程的公式太難寫了, 有空再說吧)對偶問題, 我們得到標準的支持向量機專用的凸二次優化問題:

min α 1 2 Σ i Σ j α i α j y i y j (x i \cdot x j) - Σ α i s . t . Σ α i y i = 0 α i \geq 0, i = 1, 2, . . ., N

使用SMO算法可以解出

a∗ , 再由KKT條件, 可以得到原問題的最優解:

w * = Σ α * i y i x i b * = y j - Σ α * i y i (x i \cdot x j), α * j > 0

1.9 上述學習算法叫做最大間隔學習算法, 即利用間隔最大化策略, 構造凸優化問題, 然後通過求解凸優化問題得到原始問題最優解的算法.

1.10 如果我們利用對偶性求解原始問題, 那麼對應於αi>0 的點xi 稱爲支持向量. 注意到, 對於非支持向量, αi=0 , 即它不會向凸優化問題的求解提供任何約束, 因此支持向量機的解完全取決於支持向量.

2 線性支持向量機

評論: 訓練集T 並不總是線性可分的, 對於不能線性可分的訓練集, 我們也可以學習到一個支持向量機.

2.1 對於非線性可分訓練集, 通過軟間隔最大化策略或求解等價的最優化問題得到的分離超平面(w,b) 以及決策函數f(x)=sign(w⋅x+b) 稱爲線性支持向量機

2.2 回憶在線性可分的情況下, 我們有凸優化問題:

max w, b 1 2 w 2 s . t . y i (w \cdot x i + b) \geq 1, i = 1, 2, . . ., N

在非線性可分的情況下, 約束條件並不是總能被滿足, 因此我們減弱約束條件爲:

y i (w \cdot x i + b) \geq 1 - ξ i, ξ i \geq 0

, 我們將盡量使用滿足約束的最小的

ξi , 爲此, 爲每個

ξi 支付一個代價, 這裏我們選用最簡單的代價函數

Cξi ,

C 被稱爲懲罰係數, 於是, 線性支持向量機的原始問題可以表述爲:

max w, b 1 2 w 2 + C Σ ξ i s . t . y i (w \cdot x i + b) - 1 + ξ i \geq 0, i = 1, 2, . . ., N ξ i \geq 0

評論至此, 已經可以用藉助凸優化理論求解線性支持向量機了. 但是爲了用上SMO算法和KKT條件以獲得更高的學習效率, 我們往往將原始問題轉化爲其拉格朗日對偶問題來求解.

2.3 爲了構建拉格朗日對偶問題, 我們引入兩個拉格朗日乘子:

α, β \in R n, α i \geq 0, β i \geq 0

, 構造拉格朗日函數:

L (w, b, ξ, α, β) = 1 2 w 2 + C Σ ξ i - Σ α i [y i (w \cdot x i + b) - 1 + ξ i] - Σ β i ξ i

, 由此得到拉格朗日對偶問題:

max α, β min w, b, ξ L (w, b, ξ, α, β) s . t . α i, β i \geq 0

. 拉格朗日對偶性理論向我們保證: (1) 如果原問題有解, 則對偶問題必有解 (2) 設對偶問題的解爲

α∗,β∗,w∗,b∗,ξ∗ , 則原始問題的解爲

w∗,b∗,ξ∗

注意這裏不引入約束條件yi(w⋅xi+b)≥1−ξi 和 ξi≥0 ,因爲它們已經通過拉格朗日乘子α,β ”集成”到了L 中.

2.4 化簡對偶問題, 得到對偶問題的標準凸二次規劃形式:

min α, β 1 2 Σ i Σ j α i α j y i y j (x i \cdot x j) - Σ α i s . t . 0 \leq α i \leq C Σ α i y i = 0

. 使用SMO算法得到解

α∗,β∗ , 再由KKT條件得到原始問題的解:

w * = Σ α * i y i x i b * = y j - Σ α * i y i (x i \cdot x j), 0 < α * j < C

2.5 LSVM的對偶問題等價於問題:

min w, b Σ [1 - y i (w \cdot x i + b)] + + λ w 2

, 其中

[1−y(w⋅x+b)]+ 被稱爲合頁損失函數.

2.6 對應於αi>0 的點被稱爲支持向量, 支持向量有4類:

間隔邊界上的支持向量: 0<αi<C
間隔邊間以內被正確分類的支持向量: αi=C,0<ξi<1
分離超平面上的支持向量:αi=C,ξi=1
誤分類的支持向量:αi=C,ξi>1

評論當0<αi<C 時, 有0<βi<C . 由KKT對偶互補條件(不等約束與其係數之積爲0), 我們知道必有ξi=0

疑問爲什麼當αi=C 時, ξi 一定不爲0呢?

3. 非線性支持向量機

3.1 設

K : R n \times R n \to R

, 若有

ϕ : R n \to H

滿足

K (x, y) = ϕ (x) ϕ (y)

, 則

K 是

Rn 上的核函數.

3.2 K 是Rn 上的和函數當且僅當

\forall x 1, x 2, . . ., x m \in R n [K (x i, x j)] (m \times m) 是 半 正 定 陣, 1 \leq i, j \leq m

3.2 對於非線性可分數據集, 我們利用核函數和最大間隔策略, 或者求解等價的凸二次規劃問題, 得到的分離超平面(w,b) 以及相應的分類決策函數f(x)=sign(w⋅x+b) 叫做非線性支持向量機.

3.3 非線性支持向量機的原始問題爲:

max w, b 1 2 w 2 + C Σ ξ i s . t . y i (w \cdot x i + b) - 1 + ξ i \geq 0, i = 1, 2, . . ., N ξ i \geq 0

,對偶問題爲

max α, β min w, b, ξ L (w, b, ξ, α, β) s . t . α i, β i \geq 0

,對偶凸二次優化問題爲

min α, β 1 2 Σ i Σ j α i α j y i y j K (x i, x j) - Σ α i s . t . 0 \leq α i \leq C Σ α i y i = 0

, 解爲

w * = Σ α * i y i x i b * = y j - Σ α * i y i K (x i, x j), 0 < α * j < C

3.4 常見的核函數有:

線性核: x⋅y
多項式核: (x⋅y+1)p
高斯核(高斯徑向基函數RBF):e−(x−y)22σ2
sigmoid核: tanh(x⋅y+1)

評論高斯核函數將Rn 映射到了無限維的希爾伯特空間, 它的值域爲[0,1) , 可以用來衡量變量相似度. 在大多數情況下, RBF具有最好的性能.

支持向量機

1. 線性可分支持向量機

2 線性支持向量機

3. 非線性支持向量機

使用c#強大的表達式樹實現對象的深克隆之解決循環引用的問題

痞子衡嵌入式：恩智浦i.MX RT1xxx系列MCU啓動那些事（12.A）- uSDHC eMMC啓動時間(RT1170)

GPT-4o 引領人機交互新風向，向量數據庫賽道沸騰了

企業大模型如何成爲自己數據的“百科全書”？

本地SSL證書過期輸入命令在IIS自動生成

基於Ubuntu-22.04安裝K8s-v1.28.2實驗（二）使用kube-vip實現集羣VIP訪問

.NET週刊【5月第2期 2024-05-12】

[ULK11]信號(二):幾個信號生成函數

[ULK11]信號(一):一些基本概念

基於Centos 7的HTTP服務器搭建

我的博客

[ULK11]信號(三):從信號傳遞到原程序恢復執行

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結