機器學習基石（林軒田）第十四章筆記與感悟總結

原創

2018-08-21 21:56

14.1 Regularization - Regularized Hypothesis Set

我們可以看出，右側的數據擬合的並不好，因爲我們用來擬合的方程維數太高！！！

我們想讓右側的overfit 變成左側的看起來不錯的 ‘regularized fit’。

我們想從高次的H慢慢回退到低次的Hypothesis、

命名的歷史是：當有限的數據點可以用多個方程來進行擬合時，我們需要選擇最合適的那個。

彈幕：穿過樣本點的函數特別多，regularization就是從這些函數中找出比較好的

我們看出了將高次的w置爲0，則變成了低維的

我們依舊可以從10次多項式中尋找w，但是最後要求高維的w滿足限制條件（等於0）。

那麼爲什麼我們不直接從（2+1）維的w中尋找，而偏偏要這麼的麻煩呢？

答：我們希望能夠拓寬自己的視野，讓我們在推導後面的問題容易一些。

現在我們放鬆一點條件，變成只要至少有8個的wq=0便可以。

我們發現變成了介於H2與H10之間的一種選項。

我們稱是稀疏的（sparse）假設集。

這讓我們想到了PLA中的是非題，此類是非題是一個NP-hard難題。

我們爲了避免NP-hard難題，於是我們再做一步轉換。

我們將是非的多少項之和，轉變成了係數平方之和小於某個常數的問題。

當C趨於無限大的時候，其實就跟沒有限制條件一樣，就和10個係數的時候一樣了（H10）

我們把H（C）的這種形式，叫做規則化的hypothesis，即在規則和條件約束下的hypothesis，得到的權重叫做。

14.2 Regularization - Weight Decay Regularization

我們將新的問題表示成向量和矩陣的形式。

w的數學意義是一個球，球心在原點，而球的半徑小於。我們只要這個球裏面的w，而外面的都不要。這個“球”是高維空間上的“球”。

我們沒有條件時，只要找到谷底的方向滾下去就好。

例如Wlin是谷底，我們會朝着這個方向滾下去。

然而我們現在有了條件顯示，是一個“球”。只有在紅色圈圈內的纔是我們的最後解。

假如說，我們已經在了“球”的邊邊上，那麼我們怎麼判斷是不是已經到最優點了？

球的法向量，告訴我們不能往外走。

而綠色的箭頭，則表明是可以繼續往下滾的方向。它滿足我們的要求。

那麼當我們到達了一個可能的解時（at optimal solution），它梯度的反方向和我們的方向是平行的。

我們就設平行爲已知，得到一個方程。

的方法叫做Lagrange multiplier 拉格朗日乘子法。用來解有條件約束的問題。

感覺好像變得更復雜了，原本求一個，現在變成了既要求，有要求了。

假設有個很神的同學（oracle 先知）告訴你是多少，我們就很容易求是多少了

很容易證明，只要>0，我們的是存在的（正定的）。

我們對這個梯度+2/N * 的式子進行左右積分，等價於變成最小化這個積分後的式子、

我們把這個式子叫做，其式子裏面沒有constraint

=0的時候就會發生Overfitting，而很大的時候就無法描述了。

哲學：一小點regularization就能有很多的效果。

我們設置的越大，說明我們希望的w越小越好。因爲我們是在求解最小化的問題。

很大，相當於是在懲罰w，就相當於是要較小的C。（小半徑）

我們常常稱之爲weight-decay regularization，即把權重變小的一種方法。

我們使用了一點小技巧。polynomial transform有小缺點。即當x在[-1,1]之間的時候，當x的維數很高的時候，它就很小，我們如果仍想讓這個高維x在最後具有影響力，那麼對應的w就得非常非常大。

我們就好像是在過度懲罰了高維度的x。

我們使用了座標轉換，q+1個座標，但是因爲彼此之間不是垂直的，我們做regularization就除了一些問題。

我們的想法是在高維空間上找出一組垂直的基底。

這些基底叫做Legendre polynomials

我們列出了前五個legendre polynomials

14.3 Regularization - Regularization and VC Theory

我們原本是做個有限制的最小化的問題。

我們間接的把VC Bound做好

因爲C和

等價的緣故，

當我們最小化Eaug的時候，間接的使用VC Bound

回頭來看Augmented Error 和 VC Bound其實有一些相似和不一樣的地方。

表示w這條曲線本身到底有多麼的複雜，單一的hypothesis有多麼的複雜。

表示整個hypothesis set有多複雜。

如果前者與後者的複雜度十分相近的話，比如說，最高項的係數和Hypothesis集裏的最高項有點聯繫的話。也許，我們做好的想法，可以通過做好解決。即，做好，能夠做好。

理論上，我們要用的代價，

但是實際上我們只考慮在C裏面的那些谷底的人，即

我們prefer那些w比較短的方式。

regularization可能會使實際代價的小一些。但是這跟A（演算法）有關。

14.4 Regularization - General Regularization

最好告訴我們說好的hypothesis在哪一個方向。告訴我們一個比較小的範圍。

比如，我們知道目標函數是偶數次方的，我們就可以想辦法在regularization的過程中，將奇數次方前面的係數調小一些。

或者選擇比較有說服力的，能夠使函數變得平滑一些的函數。

或者是容易能夠optimize的方式。

但是如果選擇了壞的regularization，那麼還有最後的保護，即=0，大不了不regularization了。

L1最後的最優點往往在頂點上。sparse solution 只要算不是0的那幾項，因此會比較快。

比如有個1126個維度的模型，用L1只需要算幾個，因此會比較快。

其實是用來踩剎車的那種方法。因此，如果噪聲很多的話，就需要更大的。

因爲路況越不好，我們就需要踩更多剎車。

因爲我們拿到樣本時，其實並不知道noise是多少。因此我們需要做一個合適的的估計。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

24小時熱門文章

最新文章

最新評論文章