解釋一下vc維的本質和結構風險最小化

解釋一下vc維的本質和結構風險最小化。
VC維在有限的訓練樣本情況下,當樣本數 n 固定時,此時學習機器的 VC 維越高學習機器的複雜性越高。VC 維反映了函數集的學習能力,VC 維越大則學習機器越複雜(容量越大)。

所謂的結構風險最小化就是在保證分類精度(經驗風險)的同時,降低學習機器的 VC 維,可以使學習機器在整個樣本集上的期望風險得到控制。

推廣的界(經驗風險和實際風險之間的關係,注意引入這個原因是什麼?因爲訓練誤差再小也就是在這個訓練集合上,實際的推廣能力不行就會引起過擬合問題還。所以說要引入置信範圍也就是經驗誤差和實際期望誤差之間的關係):期望誤差R(ω) ≤ Remp (ω)+ Φ(n/h)注意Remp (ω)是經驗誤差也就是訓練誤差(線性中使得所有的都訓練正確),Φ(n/h)是置信範圍,它是和樣本數和VC維有關的。上式中置信範圍Φ 隨n/h增加,單調下降。即當n/h較小時,置信範圍Φ 較大,用經驗風險近似實際風險就存在較大的誤差,因此,用採用經驗風險最小化準則,取得的最優解可能具有較差的推廣性;如果樣本數較多,n/h較大,則置信範圍就會很小,採用經驗風險最小化準則,求得的最優解就接近實際的最優解。可知:影響期望風險上界的因子有兩個方面:首先是訓練集的規模 n,其次是 VC 維 h。可見,在保證分類精度(經驗風險)的同時,降低學習機器的 VC 維,可以使學習機器在整個樣本集上的期望風險得到控制,這就是結構風險最小化(Structure Risk Minimization,簡稱 SRM)的由來。在有限的訓練樣本情況下,當樣本數 n 固定時,此時學習機器的 VC 維越高(學習機器的複雜性越高),則置信範圍就越大,此時,真實風險與經驗風險之間的差別就越大,這就是爲什麼會出現過學習現象的原因。機器學習過程不但要使經驗風險最小,還要使其 VC 維儘量小,以縮小置信範圍,才能取得較小的實際風險,即對未來樣本有較好的推廣性,它與學習機器的 VC 維及訓練樣本數有關。

線性可分的問題就是滿足最優分類面的面要求分類面不但能將兩類樣本正確分開(訓練錯誤率爲 0),而且要使兩類的分類間隔最大(這個是怎麼回事呢?原來是有根據的,這個讓俺鬱悶了好久呢。在 @ 間隔下,超平面集合的 VC 維 h 滿足下面關係:

h = f (1/@*@)

其中, f().是單調增函數,即 h 與@的平方成反比關係。因此,當訓練樣本給定時,分類間隔越大,則對應的分類超平面集合的 VC 維就越小。)。根據結構風險最小化原則,前者是保證經驗風險(經驗風險和期望風險依賴於學習機器函數族的選擇)最小,而後者使分類間隔最大,導致 VC 維最小,實際上就是使推廣性的界中的置信範圍最小,從而達到使真實風險最小。注意:置信範圍大說明真實風險和經驗風險的差別較大。

解釋到這裏了,終於有點眉目了,哦原來就是這麼回事啊,真是的。總結一下就是訓練樣本在線性可分的情況下,全部樣本能被正確地分類(咦這個不就是傳說中的yi*(w*xi+b))>=1的條件嗎),即經驗風險Remp 爲 0 的前提下,通過對分類間隔最大化(咦,這個就是Φ(w)=(1/2)*w*w嘛),使分類器獲得最好的推廣性能。

那麼解釋完線性可分了,我們知道其實很多時候是線性不可分的啊,那麼有什麼區別沒有啊?廢話區別當然會有啦,嘿嘿那麼什麼是本質的區別啊?本質的區別就是不知道是否線性可分但是允許有錯分的樣本存在(這個咋回事還是沒明白hoho)但是正是由於允許存在錯分樣本,此時的軟間隔分類超平面表示在剔除那些錯分樣本後最大分類間隔的超平面。這裏就出現了新詞鬆馳因子,幹嗎用滴?就是用來控制錯分樣本的啊。這樣的話經驗風險就要跟鬆馳因子聯繫在一起了。而C就是鬆馳因子前面的係數,C>0 是一個自定義的懲罰因子,它控制對錯分樣本懲罰的程度,用來控制樣本偏差與機器推廣能力之間的折衷。c越小,懲罰越小,那麼訓練誤差就越大,使得結構風險也變大,而C 越大呢,懲罰就越大,對錯分樣本的約束程度就越大,但是這樣會使得第二項置信範圍的權重變大那麼分類間隔的權重就相對變小了,系統的泛化能力就變差了。所以選擇合適的C還是很有必要的。

選擇核函數。

核函數有很多種,如線性核、多項式核、Sigmoid 核和 RBF(Radial Basis function)核。本文選定 RBF 核爲 SVM 的核函數(RBF 核K(x, y) = exp(-γ || x -y ||的平方),γ > 0)。因爲RBF 核可以將樣本映射到一個更高維的空間,可以處理當類標籤(Class Labels)和特徵之間的關係是非線性時的樣例。Keerthi 等[25]證明了一個有懲罰參數C 的線性核同有參數(C,γ )(其中C 爲懲罰因子,γ 爲核參數)的 RBF 核具有相同的性能。對某些參數,Sigmoid核同 RBF 核具有相似的性能[26]。另外,RBF 核與多項式核相比具有參數少的優點。因爲參數的個數直接影響到模型選擇的複雜性。非常重要的一點是0< Kij ≤1與多項式核相反,核值可能趨向無限(γxi xj + r >1)或者0 < γxi xj + r <1,跨度非常大。而且,必須注意的是Sigmoid 核在某些參數下是不正確的(例如,沒有兩個向量的內積)。

(4)用交叉驗證找到最好的參數 C 和γ 。使用 RBF 核時,要考慮兩個參數 C 和γ 。因爲參數的選擇並沒有一定的先驗知識,必須做某種類型的模型選擇(參數搜索)。目的是確定好的(C,γ)使得分類器能正確的預測未知數據(即測試集數據),有較高的分類精確率。值得注意的是得到高的訓練正確率即是分類器預測類標籤已知的訓練數據的正確率)不能保證在測試集上具有高的預測精度。因此,通常採用交叉驗證方法提高預測精度。k 折交叉驗證(k-fold cross validation)

是將訓練集合分成 k 個大小相同的子集。其中一個子集用於測試,其它 k-1 個子集用於對分類器進行訓練。這樣,整個訓練集中的每一個子集被預測一次,交叉驗證的正確率是 k次正確分類數據百分比的平均值。它可以防止過擬合的問題。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章