Restriction of Break Point
上次我們說到,需要探究 “break point” 與 之間的關係。回顧一下, 表示假設空間在 個樣本點上能產生的最大二分數量, 表示不能滿足完全分類情形的樣本點數。
讓我們來探討一下,當 確定時, 的最大可能取值,下面使用一個例子來進行探討。
Example: Break Point
根據 break point 的定義
- 當樣本數爲 時,需要滿足樣本完全二分的情況,因此
- 當樣本數爲 時,不可滿足樣本完全二分的情況,因此 ,最多爲
- 當樣本數爲 時,同樣不可滿足樣本完全二分的情況,因此 ,但是由於 已經存在上限 ,因此 的值會有更嚴格的上限。根據實驗可以得到 。
時 的含義是:當樣本數爲 時,假設空間最多有 種分類結果,使得對任意 個樣本,不能滿足完全分類的情形。
以上的分析比較晦澀難懂,我們使用圖片重新說明一下。可以看到當只有 種分類結果的時候,任意兩個樣本都不會出現完全分類的情形。當有 種分類結果的時候,可能會出現有兩個樣本完全分類的情況,也可能不出現這種情況。而有 種分類結果的時候,始終會出現有兩個樣本完全分類的情況。因此,二分類結果最多只能有 種。
Bounding Function: Basic Cases
我們將剛纔討論的東西起一個名字,叫做 bounding function ,表示當 break point 爲 的時候, 的最大可能的值。
那麼經過前面的例子,我們可以得到一些結論:
- 時, (任意一個點都不能被完全分類,因此只能有一種分類結果)
- 時, (總共就 個點,最多就 種分類結果);
- 時, (減去一種分類結果,則任意 個點不會被完全分類);
- (剛纔的例子);
於是我們得到了下面這個表格:
Bounding Function: Inductive Cases
至此,我們已經解決了一半的問題。不過,表格裏打問號的纔是我們要討論的重點,我們試着通過遞推的方法得到這些值。
Dichotomies of
我們用計算機列舉出 的所有可能,同時將這些結果重新排列,如下圖所示:
其中橙色的表示前 個樣本點成對出現,數量記爲 ,綠色的表示前 個樣本點單獨出現,數量記爲 ,那麼有 。
表示所有 個樣本點中,任意 個都不會被完全分類。那麼去掉第 個樣本,可以得到:
- 中,前 個樣本點中的任意 個不會被完全分類, ;
- 中,前 個樣本點中的任意 個不會被完全分類, (因此第 個點會被完全分類);
因此:
推廣到其他:
數學歸納法可以證明:
因此可以得到,當 break point 存在時
Mathematical Induction
下面使用數學歸納法證明
- 時,不等式恆成立,因此只討論 的情形;
- 時,不等式成立;
- 假設 時,不等式成立,下面證明 時,不等式成立。
A Pictorial Proof
於是利用有限的 來替換無限的 ,得到 遇到Bad Sample的概率上界:
用更加精準的數學符號來表示上面的不等式:
但事實上上面的不等式是不嚴謹的,因爲 描述的是 作用於數據量爲 的資料 有效的方程數,因此 當中每一個 作用於 都能算出一個 來,一共能有 個不同的 ,是一個有限的數。但在out of sample的世界裏(總體),往往存在無限多個點,平面中任意一條直線,隨便轉一轉動一動,就能產生一個不同的 來。 的可能取值是有限個的,而 的可能取值是無限的,無法直接套用union bound,我們得先把上面那個無限多種可能的 換掉。
下面涉及到許多數學公式,先挖個坑,有時間補上。