過度擬合與正規化線性迴歸

過度擬合(over fitting):在擬合數據時,如果要包含每條訓練記錄數據,則很容易產生過度擬合,換句話說,過度擬合現象在特徵變量很多很多時容易產生。(如下圖2所示)
                           
解決過度擬合的兩種方法:
  1. 減少選取特徵變量的數量(reduce number of features)
  2. 正規化:保留所有特徵變量,但是減少數量級或者參數大小(keep all the features,but reduce magnitude/values of parameters theta(j))


正規化(regularization):用於改善或者減少過度擬合問題,在使用cost function時進行正規化。
如圖2所示,儘管其對每一個訓練數據都擬合得很好,但是一般性很差,無法很好用於新的輸入數據,因此需要正規化。

因此,正規化的思想是:
對於存在較小值參數:graphic,在cost function中加入懲罰項,從而求解參數時,值較少的參數約等於0,得到更加簡單的函數而且不易於過度擬合,如圖1所示


正規化線性迴歸(regularized linear regression):
將之前學習到的線性迴歸的cost function:

此時,使用梯度下降算法求解參數:

使用正規方程算法求解參數:

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章