Coursea-吳恩達-machine learning學習筆記（十二）【week 7之Support Vector Machines】

邏輯迴歸的代價函數如下：
$J (θ) = min_{θ} \frac{1}{m} [\sum_{i = 1}^{m} y^{(i)} (- l o g (h_{θ} (x^{(i)}))) + (1 - y^{(i)}) (- l o g (1 - h_{θ} (x^{(i)})))] + \frac{λ}{2 m} \sum_{j = 1}^{n} θ_{j}^{2}$

對於支持向量機來說：
將 $- l o g (h_{θ} (x^{(i)}))$ 替換爲 $c o s t_{1} (θ^{T} x^{(i)})$ ，如下圖：

將 $- l o g (1 - h_{θ} (x^{(i)}))$ 替換爲 $c o s t_{0} (θ^{T} x^{(i)})$ ，如下圖：

去掉 $\frac{1}{m}$ 常量以及正則項的 $λ$ 參數，轉而在第一項前加上 $C$ 係數，則得到支持向量機的代價函數：
$J (θ) = min_{θ} C [\sum_{i = 1}^{m} y^{(i)} c o s t_{1} (θ^{T} x^{(i)}) + (1 - y^{(i)}) c o s t_{0} (θ^{T} x^{(i)})] + \frac{1}{2} \sum_{j = 1}^{n} θ_{j}^{2}$

假設函數：

h_{θ} (x) = {\begin{cases} 1, & i f θ^{T} x ⩾ 0 \\ 0, & o t h e r w i s e \end{cases}

不同於邏輯迴歸輸出概率，支持向量機的假設函數直接預測

y

的取值。

根據 $c o s t_{1} (θ^{T} x^{(i)})$ 及 $c o s t_{0} (θ^{T} x^{(i)})$ 的座標圖，爲了最小化支持向量機(SVM)的代價函數，需滿足以下條件：

{\begin{cases} i f y = 1, & t h e n w e w a n t θ^{T} x ⩾ 1 \\ i f y = 0, & t h e n w e w a n t θ^{T} x ⩽ - 1 \end{cases}

支持向量機不僅正確地區分輸入的正負樣本，還加入了一個安全的間距因子，因此具有魯棒性，也稱其爲大間距分類器。

在支持向量機的代價函數中：

$C$ 值如果設置很大，支持向量機易受到異常點的影響；
$C$ 值如果設置很小，支持向量機會忽略異常點的影響。

設存在兩個二維向量：

u = [\begin{matrix} u_{1} \\ u_{2} \end{matrix}] v = [\begin{matrix} v_{1} \\ v_{2} \end{matrix}]

則向量的內積： $u \cdot v = u^{T} * v = p * ‖ u ‖ = u_{1} * v_{1} + u_{2} * v_{2}$
$p$ 是向量 $v$ 投射到 $u$ 上的長度， $‖ u ‖$ 是向量 $u$ 的長度 $= \sqrt{u_{1}^{2} + u_{2}^{2}}$
$p$ 是帶符號的，若 $u$ 與 $v$ 在座標系內的夾角爲 $θ (0 ⩽ θ ⩽ π)$ ，則 $u \cdot v = ‖ u ‖ * ‖ v ‖ * c o s θ$

當支持向量機的代價函數中， $C$ 取值較大時，爲了最小化代價函數，我們會找到令 $\sum_{i = 1}^{m} y^{(i)} c o s t_{1} (θ^{T} x^{(i)}) + (1 - y^{(i)}) c o s t_{0} (θ^{T} x^{(i)})$ 爲 $0$ 的最優解，則目標函數變爲

min_{θ} \frac{1}{2} \sum_{j = 1}^{n} θ_{j}^{2} {\begin{cases} θ^{T} x^{(i)} ⩾ 1 & i f y = 1 \\ θ^{T} x^{(i)} ⩽ - 1 & i f y = 0 \end{cases}

進行如下簡化：特徵數 $n$ 設爲2，令 $θ_{0} = 0$
目標函數可寫作： $\frac{1}{2} (θ_{1}^{2} + θ_{2}^{2}) = \frac{1}{2} (\sqrt{θ_{1}^{2} + θ_{2}^{2}})^{2} = \frac{1}{2} ‖ θ ‖^{2}$
$θ^{T} x^{(i)} = p^{(i)} \cdot ‖ θ ‖ = θ_{1} x_{1}^{(i)} + θ_{2} x_{2}^{(i)}$
則條件變爲：

{\begin{cases} p^{(i)} \cdot ‖ θ ‖ ⩾ 1 & i f y^{(i)} = 1 \\ p^{(i)} \cdot ‖ θ ‖ ⩽ - 1 & i f y^{(i)} = 0 \end{cases}

$p^{(i)}$ 爲 $x^{(i)}$ 投射到 $θ$ 的長度， $θ$ 向量與分界線垂直。
由於目標函數是令 $\frac{1}{2} ‖ θ ‖^{2}$ 儘可能小，同時要滿足條件

{\begin{cases} p^{(i)} \cdot ‖ θ ‖ ⩾ 1 & i f y^{(i)} = 1 \\ p^{(i)} \cdot ‖ θ ‖ ⩽ - 1 & i f y^{(i)} = 0 \end{cases}

所以 $p^{(i)}$ 應儘可能大。
這就是支持向量機(SVM)能有效產生大間距分類的原因。

$K e r n e l$ (核函數)：

如上圖所述，如果想擬合一條非線性的判別邊界來區分正負樣本，有兩種方法：

方法1：
構造多項式特徵變量，如果 $θ_{0} + θ_{1} x_{1} + θ_{2} x_{2} + θ_{3} x_{1} x_{2} + θ_{4} x_{1}^{2} + θ_{5} x_{2}^{2} + \dots > 0$ ，則預測 $y = 1$ 。

方法2：
只定義三個特徵變量 $x_{0}, x_{1}, x_{2}$ ，其中 $x_{0} = 1$ ，可忽略，如下圖所示，用 $x_{1}, x_{2}$ 作爲座標軸，手動選取三個點作爲 $l^{(1)}, l^{(2)}, l^{(3)}$ ：

給出樣本 $x$ ，新的特徵變量定義如下：

f_{1} = s i m i l a r i t y (x, l^{(1)}) = e x p (- \frac{‖ x - l^{(1)} ‖^{2}}{2 σ^{2}}) f_{2} = s i m i l a r i t y (x, l^{(2)}) = e x p (- \frac{‖ x - l^{(2)} ‖^{2}}{2 σ^{2}}) f_{3} = s i m i l a r i t y (x, l^{(3)}) = e x p (- \frac{‖ x - l^{(3)} ‖^{2}}{2 σ^{2}})

$s i m i l a r i t y$ 函數即爲 $K e r n e l$ 函數，此處爲高斯核函數，可用 $k (x, l^{(i)})$ 表示。
以 $f_{1}$ 爲例：
$f_{1} = s i m i l a r i t y (x, l^{(1)}) = e x p (- \frac{‖ x - l^{(1)} ‖^{2}}{2 σ^{2}}) = e x p (- \frac{\sum_{j = 1}^{n} (x_{j} - l_{j}^{(1)})^{2}}{2 σ^{2}})$ ，忽略 $x_{0}$
如果 $x \approx l^{(1)}$ (即 $x$ 離 $l^{(1)}$ 很近)： $f_{1} \approx e x p (- \frac{0^{2}}{2 σ^{2}}) \approx 1$
如果 $x$ 離 $l^{(1)}$ 很遠： $f_{1} \approx e x p (- \frac{(l a r g e N u m b e r)^{2}}{2 σ^{2}}) \approx 0$
之前畫的每一個點對應一個新的特徵變量。

本例中，假設函數爲：當 $θ_{0} + θ_{1} f_{1} + θ_{2} f_{2} + θ_{3} f_{3} ⩾ 0$ 時，預測 $y = 1$
假設已得到 $θ_{0} = - 0.5, θ_{1} = 1, θ_{2} = 1, θ_{3} = 0$ ，可以發現，樣本離 $l^{(1)}$ 或 $l^{(2)}$ 很近時，即 $f_{1} = 0$ 或 $f_{2} = 0$ 時， $y = 1$

如何選擇 $l^{(1)}, l^{(2)}, l^{(3)} \dots$ ？
設給定 $m$ 個訓練樣本 $(x^{(1)}, y^{(1)}), (x^{(2)}, y^{(2)}), \dots, (x^{(m)}, y^{(m)})$
選擇 $l^{(1)} = x^{(1)}, l^{(2)} = x^{(2)}, \dots, l^{(m)} = x^{(m)}$
$f_{1} = s i m i l a r i t y (x, l^{(1)}) f_{2} = s i m i l a r i t y (x, l^{(2)}) \dots$
則特徵向量 $f = [\begin{matrix} f_{1} \\ f_{2} \\ \dots \\ f_{m} \end{matrix}]$ ，可添加 $f_{0} = 1$
對於支持向量機：給定樣本集 $x$ ，計算特徵向量 $f \in R^{m + 1}$
如果 $θ^{T} f ⩾ 0$ ，預測 $y = 1$

如何得到 $θ$ ？
$min_{θ} C [\sum_{i = 1}^{m} y^{(i)} c o s t_{1} (θ^{T} f^{(i)}) + (1 - y^{(i)}) c o s t_{0} (θ^{T} f^{(i)})] + \frac{1}{2} \sum_{j = 1}^{n} θ_{j}^{2}$
此處 $n = m$
$\sum_{j = 1}^{n} θ_{j}^{2}$ 也可寫作 $θ^{T} θ$ (忽略 $θ_{0}$ )，爲了提升計算效率，改寫成 $θ^{T} m θ$ ， $m$ 爲樣本數。
不建議自己寫最小化代價函數的代碼，應使用成熟軟件包。

高斯核函數中 $σ$ 參數的影響：
例： $l^{(1)} = [\begin{matrix} 3 \\ 5 \end{matrix}]$ ， $f_{1} = e x p (- \frac{‖ x - l^{(1)} ‖^{2}}{2 σ^{2}})$
當 $σ^{2} = 1$ 時：

$x = [\begin{matrix} 3 \\ 5 \end{matrix}]$ 時，爲最高點 $f_{1} = 1$ ， $x$ 取值離該點越遠， $f_{1}$ 越趨近於 $0$ 。

當 $σ^{2} = 0.5$ 時：

隨着 $x$ 取值遠離 $l^{(1)}$ ， $f_{1}$ 取值的下降趨勢加快。

當 $σ^{2} = 3$ 時：

隨着 $x$ 取值遠離 $l^{(1)}$ ， $f_{1}$ 取值的下降趨勢減緩。

使用支持向量機時，參數 $C$ 的影響：

$C$ 取值較大，低偏差，高方差。(對應 $λ$ 取值小)
$C$ 取值較小，高偏差，低方差。(對應 $λ$ 取值大)

使用支持向量機時，參數 $σ^{2}$ 的影響：

$σ^{2}$ 取值較大，特徵向量 $f_{i}$ 越平滑，高偏差，低方差
$σ^{2}$ 取值較小，特徵向量 $f_{i}$ 越陡峭，低偏差，高方差

使用SVM軟件包求解參數 $θ$ (如： $l i b l i n e a r, l i b s v m$ )：
步驟一：選擇參數 $C$
步驟二：選擇核函數：

選擇 $N o k e r n e l$ (也叫線性核函數)
如果 $θ^{T} x ⩾ 0$ ，預測 $y = 1$
當存在 $n$ 個特徵值， $m$ 個樣本， $n$ 很大， $m$ 很小，此時，適合使用線性核函數。
高斯核函數， $f_{i} = e x p (- \frac{‖ x - l^{(i)} ‖^{2}}{2 σ^{2}}), l^{(i)} = x^{(i)}$
需選擇參數 $σ^{2}$
當存在 $n$ 個特徵值， $m$ 個樣本， $n$ 很小， $m$ 很大時，適合用高斯核函數。
如果選擇高斯核函數，需要實現一個核函數：
$f u n c t i o n f = k e r n e l (x_{1}, x_{2})$
$f = e x p (- \frac{‖ x_{1} - x_{2} ‖^{2}}{2 σ^{2}})$
$r e t u r n$
其中， $f$ 代表 $f^{(i)}$ ， $x_{1}$ 代表 $x^{(i)}$ ， $x_{2}$ 代表 $l^{(j)} = x^{(j)}$
在使用高斯函數前，需要做特徵歸一化，避免單一特徵值對 $f$ 的影響過大。
注意：不是所有的相似度函數 $s i m i l a r i t y (x, l)$ 都是有效的核函數，需要滿足默塞爾定理，確保軟件包可以使用大量優化方法並快速得到參數 $θ$ 。
可能會遇到的其他核函數：
1)多項式核函數： $k (x, l) = (x^{T} l + c o n s t a n t)^{d e g r e e}$ ，當 $x, l$ 都是嚴格非負數時使用；
2)字符串核函數：當輸入爲文本或其他類型字符串時使用；
3)卡方核函數；
4)直方圖交叉核函數。

如果有 $k$ 個類別的話，一般使用內置函數，否則，訓練 $k$ 個SVM，每個SVM將 $1$ 類與其他類區分開。

邏輯迴歸與SVM對比：
$n$ 爲特徵值數量， $m$ 爲訓練樣本數

如果相對於 $m$ ， $n$ 很大(如 $n = 10000, m = 10 \sim 1000$ )
使用邏輯迴歸，或SVM使用線性核函數；
如果 $n$ 很小， $m$ 中等大小(如 $n = 1 \sim 1000, m = 10 \sim 10000$ )
選擇SVM使用高斯核函數；
如果 $n$ 很小， $m$ 很大(如 $n = 1 \sim 1000, m = 50000 +$ )
增加更多特徵值，使用邏輯迴歸或SVM不帶核函數。

對於所有情況，一個設計的很好的神經網絡可能會非常有效，但訓練起來很慢。

SVM優化函數是凸函數，總能找到全局最小值，或接近它的值。

Coursea-吳恩達-machine learning學習筆記（十二）【week 7之Support Vector Machines】

PDManer [元數建模]-v4.9.0 發佈：一款簡單好用的數據庫建模平臺

使用neovim打造go ide(支持代碼跳轉, 代碼補全, 實時語法檢查)

cs01 CSS Syntax

挑戰程序設計競賽 2.3章習題 poj 3046 Ant Counting

[MASM拾遺]Offset僞指令

h30 HTML Layout Elements

瞭解顯卡

一款基於C#開發的通訊調試工具（支持Modbus RTU、MQTT調試）

Linux/Golang/glibC系統調用

cs04 CSS Measurement Units

Windows cmd窗口的切換目錄命令無法切換盤符

Coursea-吳恩達-machine learning學習筆記（十六）【week 9之Recommender Systems】

Coursea-吳恩達-machine learning學習筆記（十四）【week 8之Dimensionality Reduction】

Coursea-吳恩達-machine learning學習筆記（十二）【week 7之Support Vector Machines】

Coursea-吳恩達-machine learning學習筆記（九）【week 5之Neural Networks: Learning】

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結