14.1 Regularization - Regularized Hypothesis Set
我們可以看出,右側的數據擬合的並不好,因爲我們用來擬合的方程維數太高!!!
我們想讓右側的overfit 變成左側的看起來不錯的 ‘regularized fit’。
我們想從高次的H慢慢回退到低次的Hypothesis、
命名的歷史是:當有限的數據點可以用多個方程來進行擬合時,我們需要選擇最合適的那個。
彈幕:穿過樣本點的函數特別多,regularization就是從這些函數中找出比較好的
我們看出了將高次的w置爲0,則變成了低維的
我們依舊可以從10次多項式中尋找w,但是最後要求高維的w滿足限制條件(等於0)。
那麼爲什麼我們不直接從(2+1)維的w中尋找,而偏偏要這麼的麻煩呢?
答:我們希望能夠拓寬自己的視野,讓我們在推導後面的問題容易一些。
現在我們放鬆一點條件,變成只要至少有8個的wq=0便可以。
我們發現變成了介於H2與H10之間的一種選項。
我們稱是稀疏的(sparse)假設集。
這讓我們想到了PLA中的是非題,此類是非題是一個NP-hard難題。
我們爲了避免NP-hard難題,於是我們再做一步轉換。
我們將是非的多少項之和,轉變成了係數平方之和小於某個常數的問題。
當C趨於無限大的時候,其實就跟沒有限制條件一樣,就和10個係數的時候一樣了(H10)
我們把H(C)的這種形式,叫做規則化的hypothesis,即在規則和條件約束下的hypothesis,得到的權重叫做。
14.2 Regularization - Weight Decay Regularization
我們將新的問題表示成向量和矩陣的形式。
w的數學意義是一個球,球心在原點,而球的半徑小於。我們只要這個球裏面的w,而外面的都不要。這個“球”是高維空間上的“球”。
我們沒有條件時,只要找到谷底的方向滾下去就好。
例如Wlin是谷底,我們會朝着這個方向滾下去。
然而我們現在有了條件顯示,是一個“球”。只有在紅色圈圈內的纔是我們的最後解。
假如說,我們已經在了“球”的邊邊上,那麼我們怎麼判斷是不是已經到最優點了?
球的法向量,告訴我們不能往外走。
而綠色的箭頭,則表明是可以繼續往下滾的方向。它滿足我們的要求。
那麼當我們到達了一個可能的解時(at optimal solution),它梯度的反方向和我們的方向是平行的。
我們就設平行爲已知,得到一個方程。
的方法叫做Lagrange multiplier 拉格朗日乘子法。用來解有條件約束的問題。
感覺好像變得更復雜了,原本求一個,現在變成了既要求,有要求了。
假設有個很神的同學(oracle 先知)告訴你是多少,我們就很容易求是多少了
很容易證明,只要>0,我們的是存在的(正定的)。
我們對這個梯度+2/N * 的式子進行左右積分,等價於變成 最小化這個積分後的式子、
我們把這個式子叫做,其式子裏面沒有constraint
=0的時候就會發生Overfitting,而很大的時候就無法描述了。
哲學:一小點regularization就能有很多的效果。
我們設置的越大,說明我們希望的w越小越好。因爲我們是在求解最小化的問題。
很大,相當於是在懲罰w,就相當於是要較小的C。(小半徑)
我們常常稱之爲weight-decay regularization,即把權重變小的一種方法。
我們使用了一點小技巧。polynomial transform有小缺點。即當x在[-1,1]之間的時候,當x的維數很高的時候,它就很小,我們如果仍想讓這個高維x在最後具有影響力,那麼對應的w就得非常非常大。
我們就好像是在過度懲罰了高維度的x。
我們使用了座標轉換,q+1個座標,但是因爲彼此之間不是垂直的,我們做regularization就除了一些問題。
我們的想法是在高維空間上找出一組垂直的基底。
這些基底叫做Legendre polynomials
我們列出了前五個legendre polynomials
14.3 Regularization - Regularization and VC Theory
我們原本是做個有限制的最小化的問題。
我們間接的把VC Bound做好
當我們最小化Eaug的時候,間接的使用VC Bound
回頭來看Augmented Error 和 VC Bound其實有一些相似和不一樣的地方。
表示w這條曲線本身到底有多麼的複雜,單一的hypothesis有多麼的複雜。
表示整個hypothesis set有多複雜。
如果前者與後者的複雜度十分相近的話,比如說,最高項的係數和Hypothesis集裏的最高項有點聯繫的話。也許,我們做好的想法,可以通過做好解決。即,做好,能夠做好。
理論上,我們要用的代價,
但是實際上我們只考慮在C裏面的那些谷底的人,即
我們prefer那些w比較短的方式。
regularization可能會使實際代價的小一些。但是這跟A(演算法)有關。
14.4 Regularization - General Regularization
最好告訴我們說好的hypothesis在哪一個方向。告訴我們一個比較小的範圍。
比如,我們知道目標函數是偶數次方的,我們就可以想辦法在regularization的過程中,將奇數次方前面的係數調小一些。
或者選擇比較有說服力的,能夠使函數變得平滑一些的函數。
或者是容易能夠optimize的方式。
但是如果選擇了壞的regularization,那麼還有最後的保護,即=0,大不了不regularization了。
比如有個1126個維度的模型,用L1只需要算幾個,因此會比較快。
其實是用來踩剎車的那種方法。因此,如果噪聲很多的話,就需要更大的。
因爲路況越不好,我們就需要踩更多剎車。
因爲我們拿到樣本時,其實並不知道noise是多少。因此我們需要做一個合適的的估計。