接着上一篇所討論的問題,繼續討論。
Recap and Preview
回顧一下機器學習的流程圖:
機器學習可以理解爲尋找到 ,使得 ,也就是 的過程。
爲了完成這件事情,有兩個關鍵的步驟:
- 保證 ,由 “訓練” 過程來完成
- 保證 ,由 “驗證” 過程來完成
當這兩件事情都得到保證之後,我們就可以得到 ,於是完成了學習。
的取值(hypothesis 的數目)會影響上面說的兩個步驟:
- 太小,能保證 ,但是不能保證
(因爲可選擇的 hypothesis 的數目太少); - 太大,能保證 ,但是不能保證 。
因此需要想辦法解決 較大時, 的問題。
Effective Number of Lines
由上一篇文章我們知道:
對於這個式子, 時,右側的值很大, 不能保證。我們的想法是:嘗試用一個合適的數 代替式子中的 ,使無窮變成有限,如下式:
第一個式子中的 來源於 “Union Bound”
其中 表示的是第 個假設函數 在數據集上發生壞事情(即存在 BAD DATA, )的概率。
然而當 很大時,假設集中存在許多相似的假設函數 ,它們發生壞事情的概率和情形都很接近,這樣使用 “Union Bound” 來計算整個假設集發生壞事情的概率,便存在許多重複的地方,於是算出來的概率會比實際的高很多(over-estimating)。
我們換一種思路,從數據點的分類結果來對假設集進行分類,這樣就避免了假設之間相互重合的問題。以二元分類來闡述怎麼解決這個問題:我們根據分類結果,對 進行分類。
樣本點大小 | 假設集 等價類(考慮最多的情況) |
---|---|
1 | 2 類: 、 |
2 | 4 類: 、 、 、 |
… | … |
N |
對於一個大小爲 的數據集,任意一個假設函數 都屬於上述 個等價類之間的一個,因此我們可以用 來代替原不等式中的 。
Effective Number of Hypotheses
我們把上面提到的等價類的概念起一個名字叫做 Dichotomy。
具體的 Dichotomy 的 size 與這 個數據的具體取值有關(但是不會大於 ),爲方便討論我們取最大那個 size 來分析,取名爲 growth function,記作 ,意思是假設空間在 個樣本點上能產生的最大二分數量。
接下來我們需要計算 ,首先考慮幾種不同的模型的
Positive Rays
確定一個點,規定在這個點的正方向爲正,即 ,反方向爲負,即 。在這種情況下 ,如下圖所示。
Positive Intervals
確定兩個點,規定在這兩個點之間爲正,即 ,兩個點之外爲負,即 。在這種情況下 ,如下圖所示。
Convex Sets
頂點在同一個圓上的凸多邊形,規定圓上與多邊形相交的點爲正,即 ,沒有與多邊形相交的點爲負,即 。在這種情況下 ,如下圖所示。
2D perceptrons
就是前面舉的平面上的點分類的例子,某些情況下 。
將上面幾種情況總結如下:
model | |
---|---|
Positive Rays | |
Positive Intervals | |
Convex Sets | |
2D perceptrons | in some case |
Break Point
我們希望 是多項式形式而不是指數形式的,這樣當 很大的時候,不等式右邊趨近於0,才能保證 :
因此,將 替換爲 還不夠,爲此我們引入一個概念叫 break point,定義如下
- if no inputs can be shattered by , call a break point for
- , , , also break points
- will study minimum break point
對應的,上面所提到的四種模型的 break point 如下:
model | break point | |
---|---|---|
Positive Rays | break point at 2 | |
Positive Intervals | break point at 3 | |
Convex Sets | no break point | |
2D perceptrons | in some case | break point at 4 |
我們猜測 與 break point 有下面的關係:
- no break point:
- break point :
如果猜測成立,那麼在有 break point 的情況下, 便是一個多項式形式,這樣就能保證 了。
因此,接下來我們需要探討,break point 與 之間的關係,我們將在下幾篇文章中對此進行討論。