《機器學習基石》學習筆記 5 Training versus Testing

上節課,我們主要介紹了機器學習的可行性。首先,由 NFL 定理可知,機器學習貌似是不可行的。但是,隨後引入了統計學知識,如果樣本數據足夠大,且 hypothesis 個數有限,那麼機器學習一般就是可行的。本節課將討論機器學習的核心問題,嚴格證明爲什麼機器可以學習。從上節課最後的問題出發,即當 hypothesis 的個數是無限多的時候,機器學習的可行性是否仍然成立?

一、Recap and Preview

我們先來看一下基於統計學的機器學習流程圖:
在這裏插入圖片描述
該流程圖中,訓練樣本 DD 和最終測試 hh 的樣本都是來自同一個數據分佈,這是機器能夠學習的前提。另外,訓練樣本 DD 應該足夠大,且 hypothesis set 的個數是有限的,這樣根據霍夫丁不等式,纔不會出現 Bad Data,保證 EinEoutE_{in} \approx E_{out},即有很好的泛化能力。同時,通過訓練,得到使 EinE_{in} 最小的 h,作爲模型最終的 g,g 接近於目標函數。

這裏,我們總結一下前四節課的主要內容:第一節課,我們介紹了機器學習的定義,目標是找出最好的 g,使 gfg \approx f,保證 Eout(g)0E_{out}(g) \approx 0;第二節課,我們介紹瞭如何讓Ein(g)0E_{in}(g) \approx 0,可以使用 PLA、pocket 等演算法來實現;第三節課,我們介紹了機器學習的分類,我們的訓練樣本是批量數據(batch),處理監督式(supervised)二元分類(binary classification)問題;第四節課,我們介紹了機器學習的可行性,通過統計學知識,把 Ein(g)Eout(g)E_{in}(g) \approx E_{out}(g) 聯繫起來,證明了在一些條件假設下, Ein(g)Eout(g)E_{in}(g) \approx E_{out}(g)成立。

在這裏插入圖片描述
這四節課總結下來,我們把機器學習的主要目標分成兩個核心的問題:

  • Ein(g)Eout(g)E_{in}(g) \approx E_{out}(g)
  • Ein(g)E_{in}(g) 足夠小

上節課介紹的機器學習可行的一個條件是 hypothesis set 的個數 M 是有限的,那 M 跟上面這兩個核心問題有什麼聯繫呢?

我們先來看一下,當 M 很小的時候,由上節課介紹的霍夫丁不等式,得到Ein(g)Eout(g)E_{in}(g) \approx E_{out}(g),即能保證第一個核心問題成立。但 M 很小時,演算法 A 可以選擇的 hypothesis 有限,不一定能找到使 Ein(g)E_{in}(g) 足夠小的 hypothesis,即不能保證第二個核心問題成立。當 M 很大的時候,同樣由霍夫丁不等式,Ein(g)E_{in}(g)Eout(g)E_{out}(g) 的差距可能比較大,第一個核心問題可能不成立。而 M 很大,使的演算法 A 的可以選擇的 hypothesis 就很多,很有可能找到一個 hypothesis,使 Ein(g)E_{in}(g) 足夠小,第二個核心問題可能成立。

在這裏插入圖片描述
從上面的分析來看,M 的選擇直接影響機器學習兩個核心問題是否滿足,M 不能太大也不能太小。那麼如果 M 無限大的時候,是否機器就不可以學習了呢?例如 PLA 算法中直線是無數條的,但是 PLA 能夠很好地進行機器學習,這又是爲什麼呢?如果我們能將無限大的 M 限定在一個有限的 mHm_H 內,問題似乎就解決了。

二、Effective Number of Line

我們先看一下上節課推導的霍夫丁不等式:
P[Ein(g)Eout(g)>ϵ]2Mexp(2ϵ2N)P [|E_{in}(g) - E_{out}(g)| > \epsilon] \leq 2 \cdot M \cdot \exp(-2 \epsilon^2 N)
其中,M 表示 hypothesis 的個數。每個 hypothesis 下的 BAD events BmB_m級聯的形式滿足下列不等式:
P[B1 or B2 or ... BM]P[B1]+P[B2]+ ...P[BM]P[ B_1 \ or \ B_2 \ or \ ... \ B_M] \leq P[B_1] + P[B_2] + \ ... P[B_M]
M=M = \infty 時,上面不等式右邊值將會很大,似乎說明BAD events很大,Ein(g)E_{in}(g)Eout(g)E_{out}(g) 也並不接近。但是BAD events BmB_m級聯的形式實際上是擴大了上界,union bound 過大。這種做法假設各個 hypothesis 之間沒有交集,這是最壞的情況,可是實際上往往不是如此,很多情況下,都是有交集的,也就是說M實際上沒那麼大,如下圖所示:
在這裏插入圖片描述
也就是說 union bound 被估計過高了(over-estimating)。所以,我們的目的是找出不同BAD events 之間的重疊部分,也就是將無數個 hypothesis 分成有限個類別。

如何將無數個 hypothesis 分成有限類呢?我們先來看這樣一個例子,假如平面上用直線將點分開,也就跟 PLA 一樣。如果平面上只有一個點 x1x_1,那麼直線的種類有兩種:一種將 x1x_1劃爲 +1,一種將 x1x_1 劃爲 -1:

在這裏插入圖片描述
如果平面上有兩個點 x1x_1x2x_2,那麼直線的種類共4種:x1x_1x2x_2都爲 +1,x1x_1x2x_2都爲 -1,x1x_1 爲 +1 且 x2x_2 爲 -1,x1x_1 爲 -1 且 x2x_2 爲 +1:
在這裏插入圖片描述
如果平面上有三個點 x1x_1x2x_2x3x_3,那麼直線的種類共8種:
在這裏插入圖片描述
但是,在三個點的情況下,也會出現不能用一條直線劃分的情況:
在這裏插入圖片描述
也就是說,對於平面上三個點,不能保證所有的8個類別都能被一條直線劃分。那如果是四個點 x1x_1x2x_2x3x_3x4x_4,我們發現,平面上找不到一條直線能將四個點組成的 16 個類別完全分開,最多隻能分開其中的 14 類,即直線最多隻有 14 種:
在這裏插入圖片描述
經過分析,我們得到平面上線的種類是有限的,1 個點最多有 2 種線,2 個點最多有 4 種線,3 個點最多有 8 種線,4 個點最多有 14(< 242^4)種線等等。我們發現,有效直線的數量總是滿足 2N\leq 2^N,其中,N 是點的個數。所以,如果我們可以用 effective(N)代替 M,霍夫丁不等式可以寫成:
P[Ein(g)Eout(g)>ϵ]2effective(N)exp(2ϵ2N)P [|E_{in}(g) - E_{out}(g)| > \epsilon] \leq 2 \cdot effective(N) \cdot \exp(-2 \epsilon^2 N)

已知 effective(N)<2Neffective(N) < 2^N,如果能夠保證 effective(N)<<2Neffective(N)<<2^N,即不等式右邊接近於零,那麼即使 M 無限大,直線的種類也很有限,機器學習也是可能的。

在這裏插入圖片描述

三、Effective Number of Hypotheses

接下來先介紹一個新名詞:二分類(dichotomy)。dichotomy 就是將空間中的點(例如二維平面)用一條直線分成正類(藍色o)和負類(紅色x)。令 H 是將平面上的點用直線分開的所有 hypothesis h的集合,dichotomy H與hypotheses H的關係是:hypotheses H是平面上所有直線的集合,個數可能是無限個,而dichotomy H是平面上能將點完全用直線分開的直線種類,它的上界是 2N2^N。接下來,我們要做的就是嘗試用 dichotomy 代替 M。

在這裏插入圖片描述
再介紹一個新的名詞:成長函數(growth function),記爲 mH(H)m_H(H)。成長函數的定義是:對於由 N 個點組成的不同集合中,某集合對應的 dichotomy 最大,那麼這個dichotomy 值就是 mH(H)m_H(H),它的上界是 2N2^N
mH(N)=maxx1,x2,...,xNXH(x1,x2,...,xN)m_H(N) = \displaystyle\max_{x_1, x_2, ... ,x_N \in X} | H (x_1, x_2, ... , x_N)|

成長函數其實就是我們之前講的 effective lines 的數量最大值。根據成長函數的定義,二維平面上,mH(H)m_H(H) 隨 N 的變化關係是:
在這裏插入圖片描述
接下來,我們討論如何計算成長函數。先看一個簡單情況,一維的 Positive Rays:

在這裏插入圖片描述
它的成長函數可以由下面推導得出:

在這裏插入圖片描述
這種情況下,mH(N)=12N2+12N+1<<2Nm_H(N) = \frac{1}{2}N^2 + \frac{1}{2}N + 1 << 2^N,在 N 很大的時候,仍然是滿足的。

再來看這個例子,假設在二維空間裏,如果 hypothesis 是凸多邊形或類圓構成的封閉曲線,如下圖所示,左邊是 convex 的,右邊不是 convex 的。那麼,它的成長函數是多少呢?

在這裏插入圖片描述
當數據集 DD 按照如下的凸分佈時,我們很容易計算得到它的成長函數mH=2Nm_H = 2^N。這種情況下,N 個點所有可能的分類情況都能夠被 hypotheses set 覆蓋,我們把這種情形稱爲 shattered。也就是說,如果能夠找到一個數據分佈集,hypotheses set 對 N 個輸入所有的分類情況都做得到,那麼它的成長函數就是2N2^N

在這裏插入圖片描述

四、Break Point

上一小節,我們介紹了四種不同的成長函數,分別是:
在這裏插入圖片描述
其中,positive rays 和 positive intervals 的成長函數都是 polynomial 的,如果用 mHm_H 代替 M 的話,這兩種情況是比較好的。而 convex sets 的成長函數是 exponential 的,即等於 M ,並不能保證機器學習的可行性。那麼,對於 2D perceptrons,它的成長函數究竟是 polynomial 的還是 exponential 的呢?

對於 2D perceptrons,我們之前分析了 3 個點,可以做出 8 種所有的 dichotomy,而 4 個點,就無法做出所有 16 個點的 dichotomy 了。所以,我們就把 4 稱爲 2D perceptrons 的 break point(5、6、7 等都是 break point)。令有 k 個點,如果 k 大於等於 break point 時,它的成長函數一定小於 2 的 k 次方。

根據 break point 的定義,我們知道滿足 mH(k)2km_H(k) \neq 2^k 的 k 的最小值就是 break point。對於我們之前介紹的四種成長函數,他們的 break point 分別是:

在這裏插入圖片描述
通過觀察,我們猜測成長函數可能與 break point 存在某種關係:對於 convex sets,沒有 break point,它的成長函數是 2 的 N 次方;對於 positive rays,break point k=2,它的成長函數是 O(N);對於 positive intervals,break point k=3,它的成長函數是 O(N2)O(N^2)。則根據這種推論,我們猜測 2D perceptrons,它的成長函數 mH(N)=O(Nk1)m_H(N)=O(N^{k−1}) 。如果成立,那麼就可以用 mHm_H 代替 M,就滿足了機器能夠學習的條件。關於上述猜測的證明,我們下節課再詳細介紹。

五、總結

本節課,我們更深入地探討了機器學習的可行性。我們把機器學習拆分爲兩個核心問題:Ein(g)Eout(g)E_{in}(g) \approx E_{out}(g)Ein(g)0E_{in}(g) \approx 0 。對於第一個問題,我們探討了 M 個 hypothesis 到底可以劃分爲多少種,也就是成長函數 mHm_H。並引入了 break point 的概念,給出了 break point 的計算方法。下節課,我們將詳細論證對於 2D perceptrons,它的成長函數與 break point 是否存在多項式的關係,如果是這樣,那麼機器學習就是可行的。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章