機器學習基石(林軒田)第十四章 筆記與感悟總結

14.1 Regularization - Regularized Hypothesis Set


我們可以看出,右側的數據擬合的並不好,因爲我們用來擬合的方程維數太高!!!

我們想讓右側的overfit 變成左側的看起來不錯的 ‘regularized fit’

我們想從高次的H慢慢回退到低次的Hypothesis、

命名的歷史是:當有限的數據點可以用多個方程來進行擬合時,我們需要選擇最合適的那個。

彈幕:穿過樣本點的函數特別多,regularization就是從這些函數中找出比較好的


我們看出了將高次的w置爲0,則變成了低維的



我們依舊可以從10次多項式中尋找w,但是最後要求高維的w滿足限制條件(等於0)

那麼爲什麼我們不直接從(2+1)維的w中尋找,而偏偏要這麼的麻煩呢?

答:我們希望能夠拓寬自己的視野,讓我們在推導後面的問題容易一些。



現在我們放鬆一點條件,變成只要至少有8個的wq=0便可以。

我們發現變成了介於H2與H10之間的一種選項。

我們稱是稀疏的(sparse)假設集。


這讓我們想到了PLA中的是非題,此類是非題是一個NP-hard難題。


我們爲了避免NP-hard難題,於是我們再做一步轉換。

我們將是非的多少項之和,轉變成了係數平方之和小於某個常數的問題

當C趨於無限大的時候,其實就跟沒有限制條件一樣,就和10個係數的時候一樣了(H10)

我們把H(C)的這種形式,叫做規則化的hypothesis,即在規則和條件約束下的hypothesis,得到的權重叫做




14.2 Regularization - Weight Decay Regularization

我們將新的問題表示成向量和矩陣的形式。

w的數學意義是一個球,球心在原點,而球的半徑小於。我們只要這個球裏面的w,而外面的都不要。這個“球”是高維空間上的“球”。


我們沒有條件時,只要找到谷底的方向滾下去就好。

例如Wlin是谷底,我們會朝着這個方向滾下去。

然而我們現在有了條件顯示,是一個“球”。只有在紅色圈圈內的纔是我們的最後解。

假如說,我們已經在了“球”的邊邊上,那麼我們怎麼判斷是不是已經到最優點了?


球的法向量,告訴我們不能往外走。

而綠色的箭頭,則表明是可以繼續往下滾的方向。它滿足我們的要求。

那麼當我們到達了一個可能的解時(at optimal solution),它梯度的反方向和我們的方向是平行的。

我們就設平行爲已知,得到一個方程。

的方法叫做Lagrange multiplier  拉格朗日乘子法。用來解有條件約束的問題。


感覺好像變得更復雜了,原本求一個,現在變成了既要求,有要求了。

假設有個很神的同學(oracle 先知)告訴你是多少,我們就很容易求是多少了

很容易證明,只要>0,我們的是存在的(正定的)。



我們對這個梯度+2/N * 的式子進行左右積分,等價於變成    最小化這個積分後的式子、

我們把這個式子叫做,其式子裏面沒有constraint



=0的時候就會發生Overfitting,而很大的時候就無法描述了。

哲學:一小點regularization就能有很多的效果。

 我們設置的越大,說明我們希望的w越小越好。因爲我們是在求解最小化的問題。

很大,相當於是在懲罰w,就相當於是要較小的C。(小半徑)

我們常常稱之爲weight-decay regularization,即把權重變小的一種方法。



我們使用了一點小技巧。polynomial transform有小缺點。即當x在[-1,1]之間的時候,當x的維數很高的時候,它就很小,我們如果仍想讓這個高維x在最後具有影響力,那麼對應的w就得非常非常大。

我們就好像是在過度懲罰了高維度的x。

我們使用了座標轉換,q+1個座標,但是因爲彼此之間不是垂直的,我們做regularization就除了一些問題。

我們的想法是在高維空間上找出一組垂直的基底。

這些基底叫做Legendre polynomials

我們列出了前五個legendre polynomials



14.3 Regularization - Regularization and VC Theory

我們原本是做個有限制的最小化的問題。

我們間接的把VC Bound做好

因爲C和等價的緣故,


當我們最小化Eaug的時候,間接的使用VC Bound


回頭來看Augmented Error 和 VC Bound其實有一些相似和不一樣的地方。

表示w這條曲線本身到底有多麼的複雜,單一的hypothesis有多麼的複雜。

表示整個hypothesis set有多複雜。

如果前者與後者的複雜度十分相近的話,比如說,最高項的係數和Hypothesis集裏的最高項有點聯繫的話。也許,我們做好的想法,可以通過做好解決。即,做好,能夠做好


理論上,我們要用的代價,

但是實際上我們只考慮在C裏面的那些谷底的人,即

我們prefer那些w比較短的方式。

regularization可能會使實際代價的小一些。但是這跟A(演算法)有關。



14.4 Regularization - General Regularization

最好告訴我們說好的hypothesis在哪一個方向。告訴我們一個比較小的範圍。

比如,我們知道目標函數是偶數次方的,我們就可以想辦法在regularization的過程中,將奇數次方前面的係數調小一些。

或者選擇比較有說服力的,能夠使函數變得平滑一些的函數。

或者是容易能夠optimize的方式。

但是如果選擇了壞的regularization,那麼還有最後的保護,即=0,大不了不regularization了。



L1最後的最優點往往在頂點上。sparse solution 只要算不是0的那幾項,因此會比較快。

比如有個1126個維度的模型,用L1只需要算幾個,因此會比較快。



其實是用來踩剎車的那種方法。因此,如果噪聲很多的話,就需要更大的

因爲路況越不好,我們就需要踩更多剎車。

因爲我們拿到樣本時,其實並不知道noise是多少。因此我們需要做一個合適的的估計。



發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章