《機器學習基石》6-Theory of Generalization

Restriction of Break Point

上次我們說到,需要探究 “break point” kmH(N) 之間的關係。回顧一下,mH(N) 表示假設空間在 N 個樣本點上能產生的最大二分數量,k 表示不能滿足完全分類情形的樣本點數。

讓我們來探討一下,當 k 確定時,mH(N) 的最大可能取值,下面使用一個例子來進行探討。

Example: Break Point k=2

根據 break point 的定義

  • 當樣本數爲 N=1 時,需要滿足樣本完全二分的情況,因此 mH(1)=21=2
  • 當樣本數爲 N=2 時,不可滿足樣本完全二分的情況,因此 mH(2)<22=4 ,最多爲 mH(2)=3
  • 當樣本數爲 N=3 時,同樣不可滿足樣本完全二分的情況,因此 mH(3)<23=8 ,但是由於 mH(2) 已經存在上限 mH(2)<4 ,因此 mH(3) 的值會有更嚴格的上限。根據實驗可以得到 mH(3)<5

k=2mH(3)<5 的含義是:當樣本數爲 N=3 時,假設空間最多有 4 種分類結果,使得對任意 k=2 個樣本,不能滿足完全分類的情形。

以上的分析比較晦澀難懂,我們使用圖片重新說明一下。可以看到當只有 1,2,3 種分類結果的時候,任意兩個樣本都不會出現完全分類的情形。當有 4 種分類結果的時候,可能會出現有兩個樣本完全分類的情況,也可能不出現這種情況。而有 5 種分類結果的時候,始終會出現有兩個樣本完全分類的情況。因此,二分類結果最多只能有 4 種。




Bounding Function: Basic Cases

我們將剛纔討論的東西起一個名字,叫做 bounding function B(N,k) ,表示當 break point 爲 k 的時候,mH(N) 的最大可能的值。

那麼經過前面的例子,我們可以得到一些結論:

  • k=1 時,B(N,k)=1 (任意一個點都不能被完全分類,因此只能有一種分類結果)
  • k>N 時,B(N,k)=2N (總共就 N 個點,最多就 2N 種分類結果);
  • k=N 時,B(N,k)=2N1 (減去一種分類結果,則任意 N 個點不會被完全分類);
  • B(3,2)=4 (剛纔的例子);

於是我們得到了下面這個表格:

kB(N,k)123456112222221344443147888411516165131326163

Bounding Function: Inductive Cases

至此,我們已經解決了一半的問題。不過,表格裏打問號的纔是我們要討論的重點,我們試着通過遞推的方法得到這些值。

Dichotomies of B(4,3)

我們用計算機列舉出 B(4,3) 的所有可能,同時將這些結果重新排列,如下圖所示:

其中橙色的表示前 3 個樣本點成對出現,數量記爲 2α ,綠色的表示前 3 個樣本點單獨出現,數量記爲 β ,那麼有 B(4,3)=2α+β

B(4,3) 表示所有 4 個樣本點中,任意 3 個都不會被完全分類。那麼去掉第 4 個樣本,可以得到:

  • α+β 中,前 3 個樣本點中的任意 3 個不會被完全分類,α+βB(3,3)
  • α 中,前 3 個樣本點中的任意 2 個不會被完全分類,αB(3,2) (因此第 4 個點會被完全分類);

因此:

B(4,3)=2α+β=(α+β)+αB(3,3)+B(3,2)

推廣到其他:

B(N,k)B(N1,k)+B(N1,k1)

數學歸納法可以證明:

B(N,k)i=0k1(Ni)

因此可以得到,當 break point k 存在時

mH(N)B(N,k)i=0k1(Ni)
mH(N)N 的多項式函數。

Mathematical Induction

下面使用數學歸納法證明 B(N,k)i=0k1(Ni)

  • k=1 時,不等式恆成立,因此只討論 k2 的情形;
  • N=1 時,不等式成立;
  • 假設 N=No 時,不等式成立,下面證明 N=No+1 時,不等式成立。

B(No+1,k)B(No,k)+B(No,k1) i=0k1(Noi)+i=0k2(Noi) =1+i=1k1(Noi)+i=1k1(Noi1) =1+i=1k1[(Noi)+(Noi1)] =1+i=1k1(No+1i)=i=0k1(No+1i)

A Pictorial Proof

於是利用有限的 mH(N) 來替換無限的 M ,得到 H 遇到Bad Sample的概率上界:

PD[BAD D]2mH(N)exp(2ϵ2N)

用更加精準的數學符號來表示上面的不等式:

P[hH s.t. |Ein(h)Eout(h)|>ϵ]2mH(N)exp(2ϵ2N)

但事實上上面的不等式是不嚴謹的,因爲 mH(N) 描述的是 H 作用於數據量爲 N 的資料 D 有效的方程數,因此 H 當中每一個 h 作用於 D 都能算出一個 Ein 來,一共能有 mH(N) 個不同的 Ein ,是一個有限的數。但在out of sample的世界裏(總體),往往存在無限多個點,平面中任意一條直線,隨便轉一轉動一動,就能產生一個不同的 Eout 來。Ein 的可能取值是有限個的,而 Eout 的可能取值是無限的,無法直接套用union bound,我們得先把上面那個無限多種可能的 Eout 換掉。

下面涉及到許多數學公式,先挖個坑,有時間補上。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章