吳恩達機器學習——學習理論,經驗風險最小化(ERM),一般誤差(測試誤差),VC維

這一章主要是學習的理論。首先我們來關注這章主要研究的問題:
1.我們在實踐中針對訓練集有訓練誤差,針對測試集有測試誤差,而我們顯然更關心的是測試誤差。但是實際算法通常都是由訓練集和模型結合,那麼我們如何針對訓練集的好壞來體現出測試誤差的信息呢?這是我們研究的第一個問題
2.是否存在某些條件,我們能否在這些條件下證明某些學習算法能夠良好工作?

1.符號定義

寫在前面,這裏這把各種符號定義,如果在後文遇到對符號有問題的,可以在這一節尋找相應的含義:

H= {h1,h2...hk },H爲假設類的集合,h爲一個0-1的映射函數

h^ 表示根據ERM選擇的假設,即具有最小訓練誤差的假設,不可能有哪個假設的訓練誤差比它更小。h 表示最好的假設,即具有最小測試誤差的假設,不可能有哪個假設的測試誤差比它更小。
ε^(h) 表示用h函數分類錯誤的訓練樣本佔總樣本比(也被稱爲經驗風險),ε^(h) 表示用h 函數分類錯誤的訓練樣本佔總樣本比,ε^(h^) 表示用h^ 函數分類錯誤的訓練樣本佔總樣本比。
ε(h) 表示用h函數對測試樣本的分類錯誤概率,ε(h) 表示用h 函數對測試樣本的分類錯誤概率,ε(h^) 表示用h^ 函數對測試樣本的分類錯誤概率。

2.預備知識

在解決我們的兩個問題時,需要先了解下面兩個原理:

1.聯合界原理:設 A1, A2, …, Ak 是 K個不同事件(但不一定互相獨立),則有:

P(A1A2Ak)P(A1+A2+Ak)
建議畫圖理解。
2.Hoeffding 不等式 :設Z1,...,Zm 是 m 個獨立的並且共同遵循均值爲ϕ 的伯努利分佈的隨機變量,即P(Zi=1)=ϕ ,定義ϕ^=1mi=1mZi ,則有:
這裏寫圖片描述

其次瞭解一下兩個概念:

3.經驗風險——訓練誤差

ε^(h)=1mi=1m1 {h(x(i))y(x(i) }

4.測試誤差
這裏寫圖片描述

3. 有限個假設(finite H)的情況

我們希望保證根據經驗風險最小化找出來的假設h^ 的測試誤差也很好。因此我們制定了一個策略:
1.證明ε^(h)ε(h) 一個可靠性估計(可用後面的一致收斂解釋)
2.證明ERM選出的假設h^ 的一般誤差存在上限。

根據我們第二節介紹的第二個引理,我們可以類推出以下測試誤差與訓練誤差滿足:

P(|ε(hi)ε^(hi)>γ|)2exp(2γ2m)

這個式子表明了,對於一個特定的假設函數,當訓練樣本m很大時,訓練誤差和測試誤差有很高的概率接近。那麼問題是,我們不僅要針對某一個假設函數使兩個誤差接近,而是希望對於所有的假設hH ,訓練誤差和測試誤差有很高的概率接近。

這裏我們巧用第一個引理,爲了能用到第一個定理,我們先假設Ai事件爲ε(hi)ε^(hi)>γ ,如果只存在一個事件成立,則:

這裏寫圖片描述

如果等式兩邊都用 1 來減去原始值,則不等關係改變爲:
這裏寫圖片描述

很巧妙對不對,用兩邊都用1減,這樣等式右邊就有對於所有的假設,在至少12kexp(2γ2m) 的概率下,測試誤差與訓練誤差的差距在γ以內,我們稱這種情況爲一致收斂,滿足一致收斂則完成第一個策略的條件。
在上面的討論中,我們涉及到的是針對某些 m 和 γ 的特定值,給定一個概率約束。這裏我們感興趣的變量有三個:m, γ, 以及誤差的概率δ=2kexp(2γ2m) ;我們可以將其中的任意一個用另外兩個來進行約束。

那麼我們可以提出第一個約束:給定γδ ,訓練集m至少有多大才能保證至少在1δ 的概率下|ε(hi)ε^(hi)|γ ,即是一個可靠性估計:

根據δ=2kexp(2γ2m) ,可以得到:

這裏寫圖片描述
m在這裏稱爲樣本複雜度界,即我們達到一個特定的誤差界需要的樣本數量,可以保證ε^(h)ε(h) 一個可靠性估計。我們可以發現m與logk成正比,說明假設類增加很多的 話,樣本數量也不會有太大提高,因爲log函數增長速度很慢。

接下來是第二個約束:給定m和δ 固定,在至少1δ 概率下,保證對所有的假設成立,求解γ ,由於δ 固定,我們可以得出:

這裏寫圖片描述

我們可以將上式變形,注意一下看不懂的符號回到第一節去找相應的含義:
這裏寫圖片描述

注意第一次變形是由|ε(hi)ε^(hi)|γ 得到的,第二行是由ε^(h)ε^(h) 得到的(因爲任何訓練誤差都沒有比通過ERM得到的更小),第三次變形還是由|ε(hi)ε^(hi)|γ 得到的。這個結果再變形一下就是:
這裏寫圖片描述

這個式子就證明了我們的第二個策略,假設h^ 的一般誤差最多比最小的一般誤差多2γ (細心品讀),即ERM選出的假設h^ 的一般誤差存在上限。
關於最後的這個不等式還有一些說法,就是該式子可以很好的量化偏差方差權衡,右邊第一項對應的學習的偏差,第二項對應的學習的方差(對數據擬合的有多好)具體說,有一個假設類H可能包含一個線性迴歸,或僅有線性特徵的邏輯迴歸的類,當換成了更多特徵的新類H’,比如變成2次,更復雜的類,即HH ,那麼右式第一項擬合的更好所以偏差下降,但複雜度更高則第二項上升。
最後介紹一個推論: 令假設類含有k個假設,|H|=k,給定γ和δ,爲了保證:
這裏寫圖片描述
至少在1-δ的概率下,滿足條件:
這裏寫圖片描述
即給出了爲了滿足誤差率要求,所需的訓練樣本的數目的界。

4. 無限假設類的情況

我們已經在有限假設類中證明了很多有用的結論,例如爲滿足誤差率所需的樣本數目的界的範圍,那推廣到無限維是否一樣成立呢?
首先我們知道我們設置的假設類集合H以d個實數爲參數,例如使用邏輯迴歸,解決包含n個特徵的問題,d應該爲n+1,所以邏輯迴歸會找到一個線性決策邊界,以n+1個實數爲參數。在計算機中用雙精度浮點數64bit表示一個實數,那麼此時用64d個位來表示參數,具有64d個狀態,爲了滿足這個條件,m符合:

這裏寫圖片描述

我們可以大致發現訓練樣本的數目大致和假設類的參數數目呈線性關係。這個論點並不是充分的,只是用來加深直觀的理解。

(1)分散的定義

給定d個樣本的集合S= {x(1),...,x(d) },假設類H可以分散S,那麼對於S的任意一種標記方式都可以從H中找到一個假設h能夠對S的d個樣本進行完美預測。

  • H={二維上的線性分類器}
    這裏寫圖片描述
  • H={三維上的線性分類器}
    這裏寫圖片描述
(2)VC維

給定一個假設類H,定義VC維(Vapnik-Chervonenkis dimension),記作VC(H),表示能夠被H分散最大集合的大小。

如果一個假設類可以分散任意大的集合,那麼它的VC維維無窮大。對於任意維度的n維線性分類器構成的假設類的VC維=n+1,舉個例子:H是所有二維線性分類器構成的假設類,VC(H)=3。即使也有幾個特例例外,不過這並不影響整體。因爲VC維是隻要存在就行。

這裏寫圖片描述

定理:給定一個假設類H,令VC(H)=d,至少在1-δ的概率下,對於任意h∈H有如下結論:

這裏寫圖片描述
因此,至少在1-δ的概率下,以下結論也成立:
這裏寫圖片描述

第一個結論說明測試誤差與訓練誤差之間的差異存在上界,由不等式右邊的式子O()限定。第二個結論說明,若測試誤差與訓練誤差相差不大的情況下,那麼選擇的假設的測試誤差與最好的測試誤差之間的差異最多是O()。

Corollary(推論):爲了保證對於所有的h∈H有|ε(hi)ε^(hi)|γ ,也就是這裏寫圖片描述
至少在1-δ的概率下,要滿足: m=Or,δ(d) .

d爲模型的參數,也就是爲了保證測試誤差與訓練誤差的差異足夠小,假設類的VC維需要與m的階相同。對於EMR來說,需要訓練的樣本數目大概和假設類的VC維呈線性關係,樣本複雜度的上界由VC維給定,最壞的情況下,樣本複雜度的上下界均由VC維確定。對於大多數合理的假設類,VC維總是與模型的參數成正比。而事實上,樣本數目與模型參數數量也成線性關係。
例如在SVM中,核函數將特徵映射到無限維的特徵空間,看似VC維度是無窮大的,因爲它是n+1,而n爲無窮大。

事實證明:具有較大間隔的線性分類器假設類都有比較低的VC維。若||x(i)||2R ,則VC(H)[R24γ2]+1 ,其中R爲假設這些點的半徑。

該式子證明,即使數據點在無限維中,但是隻要考慮含較大間隔線性分類器的假設類,則VC維是有上界的,且上界並不依賴於x的維度。SVM會自動找到一個具有較小VC維的假設類,不會出現過擬合。

最後,結合上述內容解釋ERM與之前學習過的學習算法之間的聯繫。

這裏寫圖片描述

解釋一下:我們期望的最理想的分類器是一個指示函數(圖中的階梯函數),也就是我們得到的ERM,但由於這個階梯函數不是一個凸函數,事實證明線性分類器使訓練誤差最小是一個NP難問題。邏輯迴歸與支持向量機都可以看作是這個問題(ERM)的凸性近似。邏輯迴歸一般採用極大似然性,如果加入負號就可以得到圖中的曲線,實際上是近似地在最小化訓練誤差,它是ERM的一種近似。同時,支持向量機也可以看作是ERM的一種近似,不同的是它嘗試用兩段不同的線性函數近似,看似是鉸鏈的形狀。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章