《機器學習基石》5-Training versus Testing

接着上一篇所討論的問題，繼續討論。

Recap and Preview

回顧一下機器學習的流程圖：

機器學習可以理解爲尋找到 $g$ ，使得 $g \approx f$ ，也就是 $E_{o u t} (g) \approx 0$ 的過程。
爲了完成這件事情，有兩個關鍵的步驟：

保證 $E_{o u t} (g) \approx E_{i n} (g)$ ，由 “訓練” 過程來完成
保證 $E_{i n} (g) \approx 0$ ，由 “驗證” 過程來完成

當這兩件事情都得到保證之後，我們就可以得到 $E_{o u t} (g) \approx 0$ ，於是完成了學習。

$M$ 的取值（hypothesis 的數目）會影響上面說的兩個步驟：

$M$ 太小，能保證 $E_{o u t} (g) \approx E_{i n} (g)$ ，但是不能保證 $E_{i n} (g) \approx 0$
（因爲可選擇的 hypothesis 的數目太少）；
$M$ 太大，能保證 $E_{i n} (g) \approx 0$ ，但是不能保證 $E_{o u t} (g) \approx E_{i n} (g)$ $(\begin{aligned} P_{D} [B A D D] \leq 2 M \exp (- 2 ϵ^{2} N) \end{aligned})$ 。

因此需要想辦法解決 $M$ 較大時， $E_{o u t} (g) \approx E_{i n} (g)$ 的問題。

Effective Number of Lines

由上一篇文章我們知道：

P [| E_{i n} (g) - E_{o u t} (g) | > ϵ] \leq 2 M \exp (- 2 ϵ^{2} N)

對於這個式子， $M = \infty$ 時，右側的值很大， $E_{o u t} (g) \approx E_{i n} (g)$ 不能保證。我們的想法是：嘗試用一個合適的數 $m_{H}$ 代替式子中的 $M$ ，使無窮變成有限，如下式：

P [| E_{i n} (g) - E_{o u t} (g) | > ϵ] \overset{?}{\leq} 2 \cdot m_{H} \cdot \exp (- 2 ϵ^{2} N)

第一個式子中的 $M$ 來源於 “Union Bound”

P [B_{1} o r B_{2} o r \dots B_{M}] \leq P [B_{1}] + P [B_{2}] + \dots + P [B_{M}]

其中 $P [B_{M}]$ 表示的是第 $M$ 個假設函數 $h_{M}$ 在數據集上發生壞事情（即存在 BAD DATA， $E_{o u t} (h_{M}) \neq E_{i n} (h_{M})$ ）的概率。

然而當 $M$ 很大時，假設集中存在許多相似的假設函數 $h$ ，它們發生壞事情的概率和情形都很接近，這樣使用 “Union Bound” 來計算整個假設集發生壞事情的概率，便存在許多重複的地方，於是算出來的概率會比實際的高很多（over-estimating）。

我們換一種思路，從數據點的分類結果來對假設集進行分類，這樣就避免了假設之間相互重合的問題。以二元分類來闡述怎麼解決這個問題：我們根據分類結果，對 $h$ 進行分類。

樣本點大小 $N$	假設集 $H$ 等價類（考慮最多的情況）
1	2 類： ${o}$ 、 ${x}$
2	4 類： ${o o}$ 、 ${o x}$ 、 ${x o}$ 、 ${x x}$
…	…
N	$2^{N} 类$

對於一個大小爲 $N$ 的數據集，任意一個假設函數 $h$ 都屬於上述 $2^{N}$ 個等價類之間的一個，因此我們可以用 $2^{N}$ 來代替原不等式中的 $M$ 。

Effective Number of Hypotheses

我們把上面提到的等價類的概念起一個名字叫做 Dichotomy。

具體的 Dichotomy 的 size 與這 $N$ 個數據的具體取值有關（但是不會大於 $2^{N}$ ），爲方便討論我們取最大那個 size 來分析，取名爲 growth function，記作 $m_{H} (N)$ ，意思是假設空間在 $N$ 個樣本點上能產生的最大二分數量。

m_{H} (N) = max_{x_{1}, x_{2}, . . ., x_{N} \in X} | H (x_{1}, x_{2}, . . ., x_{N}) |

接下來我們需要計算 $m_{H} (N)$ ，首先考慮幾種不同的模型的 $m_{H} (N)$

Positive Rays
確定一個點，規定在這個點的正方向爲正，即 $h (x) = + 1$ ，反方向爲負，即 $h (x) = - 1$ 。在這種情況下 $m_{H} (N) = N + 1$ ，如下圖所示。
Positive Intervals
確定兩個點，規定在這兩個點之間爲正，即 $h (x) = + 1$ ，兩個點之外爲負，即 $h (x) = - 1$ 。在這種情況下 $m_{H} (N) = (\binom{N + 1}{2}) + 1$ ，如下圖所示。
Convex Sets
頂點在同一個圓上的凸多邊形，規定圓上與多邊形相交的點爲正，即 $h (x) = + 1$ ，沒有與多邊形相交的點爲負，即 $h (x) = - 1$ 。在這種情況下 $m_{H} (N) = 2^{N}$ ，如下圖所示。
2D perceptrons
就是前面舉的平面上的點分類的例子，某些情況下 $m_{H} (N) < 2^{N}$ 。

將上面幾種情況總結如下：

model	$m_{H} (N)$
Positive Rays	$m_{H} (N) = N + 1$
Positive Intervals	$m_{H} (N) = (\binom{N + 1}{2}) + 1$
Convex Sets	$m_{H} (N) = 2^{N}$
2D perceptrons	$m_{H} (N) < 2^{N}$ in some case

Break Point

我們希望 $m_{H} (N)$ 是多項式形式而不是指數形式的，這樣當 $N$ 很大的時候，不等式右邊趨近於0，才能保證 $E_{o u t} (g) \approx E_{i n} (g)$ ：

P [| E_{i n} (g) - E_{o u t} (g) | > ϵ] \overset{?}{\leq} 2 \cdot m_{H} \cdot \exp (- 2 ϵ^{2} N)

因此，將 $m_{H}$ 替換爲 $2^{N}$ 還不夠，爲此我們引入一個概念叫 break point，定義如下

if no inputs can be shattered by , call a break point for
- $m_{H} (k) < 2^{k}$
- $k + 1$ , $k + 2$ , $k + 3$ , $. . .$ also break points
- will study minimum break point $k$

對應的，上面所提到的四種模型的 break point 如下：

model	$m_{H} (N)$	break point
Positive Rays	$m_{H} (N) = N + 1$	break point at 2
Positive Intervals	$m_{H} (N) = (\binom{N + 1}{2}) + 1$	break point at 3
Convex Sets	$m_{H} (N) = 2^{N}$	no break point
2D perceptrons	$m_{H} (N) < 2^{N}$ in some case	break point at 4

我們猜測 $m_{H} (N)$ 與 break point 有下面的關係：

no break point： $m_{H} (N) = 2^{N}$
break point $k$ ： $m_{H} (N) = O (N^{k - 1})$

如果猜測成立，那麼在有 break point 的情況下， $m_{H} (N)$ 便是一個多項式形式，這樣就能保證 $E_{o u t} (g) \approx E_{i n} (g)$ 了。

因此，接下來我們需要探討，break point 與 $m_{H} (N)$ 之間的關係，我們將在下幾篇文章中對此進行討論。

《機器學習基石》5-Training versus Testing

Recap and Preview

Effective Number of Lines

Effective Number of Hypotheses

Break Point

Win10 LTSC 2019 安裝後的一些步驟

推薦2款開源、美觀的WinForm UI控件庫

NET9 AspnetCore將整合OpenAPI的文檔生成功能而無需三方庫

在Linux下管理MySQL的大小寫敏感性

[Leetcode] Spiral Matrix II

[Leetcode] Combination Sum

[Leetcode] Triangle

[Leetcode] Remove Duplicates from Sorted Array II

[Leetcode] Maximum Subarray

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結