臺大-林軒田老師-機器學習基石學習筆記7

由於最近一直在準備比賽的事情就好久沒有更新了。沒想到的是一回過神就是這麼重要的VC維的概念。

上講回顧

這裏寫圖片描述
上一講講到了這個重要的主題結論,將Ein和Eout的關係限定在了一個VC bound的數值當中,這裏我們的重要參數是成長函數mH,這一講將提出一個穩定的結論替換掉它。
整體概括一下:
這裏寫圖片描述

VC維的定義

首先VC是兩個著名科學家
這裏寫圖片描述
我們都知道每一個H-est都有一個breakpoint稱之爲斷點,這個點我們需要有一個具體的專有符號去標識,於是有:

VC-Demension

但是,VC維並不是breakpoint的值,而是:
表示最大的不是breakpoint的點的數目,最大的可以將其分割的數目。
數學表述:

VC Demension: 對於假設空間H,滿足生長函數m(N) = 2^N 的最大的N, 記爲dvc(H).

將VC維和上一講的成長函數聯繫起來:
代換一下
這句話什麼意思呢?我們看一下例子:
這裏寫圖片描述
只說明瞭一個問題——當VC維有限大,則具備好的機器學習的素材。

VC維大小

先看個二維PLA的情況:圖已經很清楚啦!
這裏寫圖片描述
我們通過數學證明(個人認爲無關緊要且不要求)
發現:
1、There are some d + 1 inputs we can shatter.
這裏寫圖片描述
2、We cannot shatter any set of d + 2 inputs.
於是:
這裏寫圖片描述

dvc<=d+1

VC的物理意義

VC維的存在解決了問題:
d+1—>感知器的緯度—>衡量了自由度—>讓人知道產生多少二分類
這裏寫圖片描述
所以選擇一個好的dvc是非常重要的。
得到規律:
這裏寫圖片描述

VC 維與假設參數w 的自由變量數目大約相等。

VC維的解釋

1、VC 維反映了假設H 的強大程度,然而VC維並不是越大越好。【一定要有限大】
這裏寫圖片描述
這個函數知道,dvc越大,Ein就越小但是那個根號裏面的值就越大,這樣以來我們知道,dvc最好是在其適當的大小中。
2、模型較複雜時使VC維大的時候,需要更多的訓練數據
理論上是這樣的:
這裏寫圖片描述
但是實際上
這裏寫圖片描述
原因是:
這裏寫圖片描述
這些理由均是我們之前的理論證明鋪墊而來:
現在我們知道了,VC bound很寬鬆 ,但是VC維的概念很重要。
同時,林老師也說:

philosophical message of VC bound important for improving ML

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章