《機器學習基石》6-Theory of Generalization

Restriction of Break Point

上次我們說到，需要探究 “break point” $k$ 與 $m_{H} (N)$ 之間的關係。回顧一下， $m_{H} (N)$ 表示假設空間在 $N$ 個樣本點上能產生的最大二分數量， $k$ 表示不能滿足完全分類情形的樣本點數。

讓我們來探討一下，當 $k$ 確定時， $m_{H} (N)$ 的最大可能取值，下面使用一個例子來進行探討。

Example: Break Point $k = 2$

根據 break point 的定義

當樣本數爲 $N = 1$ 時，需要滿足樣本完全二分的情況，因此 $m_{H} (1) = 2^{1} = 2$
當樣本數爲 $N = 2$ 時，不可滿足樣本完全二分的情況，因此 $m_{H} (2) < 2^{2} = 4$ ，最多爲 $m_{H} (2) = 3$
當樣本數爲 $N = 3$ 時，同樣不可滿足樣本完全二分的情況，因此 $m_{H} (3) < 2^{3} = 8$ ，但是由於 $m_{H} (2)$ 已經存在上限 $m_{H} (2) < 4$ ，因此 $m_{H} (3)$ 的值會有更嚴格的上限。根據實驗可以得到 $m_{H} (3) < 5$ 。

$k = 2$ 時 $m_{H} (3) < 5$ 的含義是：當樣本數爲 $N = 3$ 時，假設空間最多有 $4$ 種分類結果，使得對任意 $k = 2$ 個樣本，不能滿足完全分類的情形。

以上的分析比較晦澀難懂，我們使用圖片重新說明一下。可以看到當只有 $1, 2, 3$ 種分類結果的時候，任意兩個樣本都不會出現完全分類的情形。當有 $4$ 種分類結果的時候，可能會出現有兩個樣本完全分類的情況，也可能不出現這種情況。而有 $5$ 種分類結果的時候，始終會出現有兩個樣本完全分類的情況。因此，二分類結果最多只能有 $4$ 種。

Bounding Function: Basic Cases

我們將剛纔討論的東西起一個名字，叫做 bounding function $B (N, k)$ ，表示當 break point 爲 $k$ 的時候， $m_{H} (N)$ 的最大可能的值。

那麼經過前面的例子，我們可以得到一些結論：

$k = 1$ 時， $B (N, k) = 1$ （任意一個點都不能被完全分類，因此只能有一種分類結果）
$k > N$ 時， $B (N, k) = 2^{N}$ （總共就 $N$ 個點，最多就 $2^{N}$ 種分類結果）；
$k = N$ 時， $B (N, k) = 2^{N} - 1$ （減去一種分類結果，則任意 $N$ 個點不會被完全分類）；
$B (3, 2) = 4$ （剛纔的例子）；

於是我們得到了下面這個表格：

\begin{array}{clcr} k \\ B (N, k) & 1 & 2 & 3 & 4 & 5 & 6 & \dots \\ 1 & 1 & 2 & 2 & 2 & 2 & 2 & \dots \\ 2 & 1 & 3 & 4 & 4 & 4 & 4 & \dots \\ 3 & 1 & 4 & 7 & 8 & 8 & 8 & \dots \\ 4 & 1 & 15 & 16 & 16 & \dots \\ 5 & 1 & 31 & 32 & \dots \\ 6 & 1 & 63 & \dots \\ ⋮ & ⋮ & ⋱ \end{array}

Bounding Function: Inductive Cases

至此，我們已經解決了一半的問題。不過，表格裏打問號的纔是我們要討論的重點，我們試着通過遞推的方法得到這些值。

Dichotomies of $B (4, 3)$

我們用計算機列舉出 $B (4, 3)$ 的所有可能，同時將這些結果重新排列，如下圖所示：

其中橙色的表示前 $3$ 個樣本點成對出現，數量記爲 $2 α$ ，綠色的表示前 $3$ 個樣本點單獨出現，數量記爲 $β$ ，那麼有 $B (4, 3) = 2 α + β$ 。

$B (4, 3)$ 表示所有 $4$ 個樣本點中，任意 $3$ 個都不會被完全分類。那麼去掉第 $4$ 個樣本，可以得到：

$α + β$ 中，前 $3$ 個樣本點中的任意 $3$ 個不會被完全分類， $α + β \leq B (3, 3)$ ；
$α$ 中，前 $3$ 個樣本點中的任意 $2$ 個不會被完全分類， $α \leq B (3, 2)$ （因此第 $4$ 個點會被完全分類）；

因此：

B (4, 3) = 2 α + β = (α + β) + α \leq B (3, 3) + B (3, 2)

推廣到其他：

B (N, k) \leq B (N - 1, k) + B (N - 1, k - 1)

數學歸納法可以證明：

B (N, k) \leq \sum_{i = 0}^{k - 1} (\binom{N}{i})

因此可以得到，當 break point $k$ 存在時

m_{H} (N) \leq B (N, k) \leq \sum_{i = 0}^{k - 1} (\binom{N}{i})

m_{H} (N)

是

N

的多項式函數。

Mathematical Induction

下面使用數學歸納法證明 $B (N, k) \leq \sum_{i = 0}^{k - 1} (\binom{N}{i})$

$k = 1$ 時，不等式恆成立，因此只討論 $k \geq 2$ 的情形；
$N = 1$ 時，不等式成立；
假設 $N = N o$ 時，不等式成立，下面證明 $N = N o + 1$ 時，不等式成立。

\begin{aligned} B (N_{o} + 1, k) & \leq B (N_{o}, k) + B (N_{o}, k - 1) \\ \leq \sum_{i = 0}^{k - 1} (\binom{N_{o}}{i}) + \sum_{i = 0}^{k - 2} (\binom{N_{o}}{i}) \\ = 1 + \sum_{i = 1}^{k - 1} (\binom{N_{o}}{i}) + \sum_{i = 1}^{k - 1} (\binom{N_{o}}{i - 1}) \\ = 1 + \sum_{i = 1}^{k - 1} [(\binom{N_{o}}{i}) + (\binom{N_{o}}{i - 1})] \\ = 1 + \sum_{i = 1}^{k - 1} (\binom{N_{o} + 1}{i}) = \sum_{i = 0}^{k - 1} (\binom{N_{o} + 1}{i}) \end{aligned}

A Pictorial Proof

於是利用有限的 $m_{H} (N)$ 來替換無限的 $M$ ，得到 $H$ 遇到Bad Sample的概率上界：

P_{D} [B A D D] \leq 2 m_{H} (N) \cdot e x p (- 2 ϵ^{2} N)

用更加精準的數學符號來表示上面的不等式：

P [\exists h \in H s.t. | E_{i n} (h) - E_{o u t} (h) | > ϵ] \leq 2 m_{H} (N) \cdot e x p (- 2 ϵ^{2} N)

但事實上上面的不等式是不嚴謹的，因爲 $m_{H} (N)$ 描述的是 $H$ 作用於數據量爲 $N$ 的資料 $D$ 有效的方程數，因此 $H$ 當中每一個 $h$ 作用於 $D$ 都能算出一個 $E_{i n}$ 來，一共能有 $m_{H} (N)$ 個不同的 $E_{i n}$ ，是一個有限的數。但在out of sample的世界裏(總體)，往往存在無限多個點，平面中任意一條直線，隨便轉一轉動一動，就能產生一個不同的 $E_{o u t}$ 來。 $E_{i n}$ 的可能取值是有限個的，而 $E_{o u t}$ 的可能取值是無限的，無法直接套用union bound，我們得先把上面那個無限多種可能的 $E_{o u t}$ 換掉。

下面涉及到許多數學公式，先挖個坑，有時間補上。

《機器學習基石》6-Theory of Generalization

Restriction of Break Point

Example: Break Point $k = 2$

Bounding Function: Basic Cases

Bounding Function: Inductive Cases

Dichotomies of $B (4, 3)$

Mathematical Induction

A Pictorial Proof

985 碩士程序員，空窗 4 個月沒有 Offer！

【入門教程】5分鐘教你快速學會集成Java springboot ~

營銷系統黑名單優化：位圖的應用解析

一文搞懂 Spring 循環依賴

我真的從測試轉成了開發......

盛大發布 | Zabbix 7.0 LTS--性能與擴展的卓越融合

nginx添加相應配置，通過瀏覽器訪問或curl時返回客戶端對應公網IP

賽博鬥地主——使用大語言模型扮演Agent智能體玩牌類遊戲。

python內置函數——sorted

[oeasy]python020在遊戲中體驗數值自由_勇闖地下城_終端文字遊戲

[Leetcode] Spiral Matrix II

[Leetcode] Combination Sum

[Leetcode] Triangle

[Leetcode] Remove Duplicates from Sorted Array II

[Leetcode] Maximum Subarray

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

《機器學習基石》6-Theory of Generalization

Restriction of Break Point

Example: Break Point k=2k=2

Bounding Function: Basic Cases

Bounding Function: Inductive Cases

Dichotomies of B(4,3)B(4,3)

Mathematical Induction

A Pictorial Proof

Example: Break Point $k = 2$

Dichotomies of $B (4, 3)$