過度擬合(over fitting):在擬合數據時,如果要包含每條訓練記錄數據,則很容易產生過度擬合,換句話說,過度擬合現象在特徵變量很多很多時容易產生。(如下圖2所示)
解決過度擬合的兩種方法:
- 減少選取特徵變量的數量(reduce number of features)
- 正規化:保留所有特徵變量,但是減少數量級或者參數大小(keep all the features,but reduce magnitude/values of parameters theta(j))
正規化(regularization):用於改善或者減少過度擬合問題,在使用cost function時進行正規化。
如圖2所示,儘管其對每一個訓練數據都擬合得很好,但是一般性很差,無法很好用於新的輸入數據,因此需要正規化。
因此,正規化的思想是:
對於存在較小值參數:,在cost
function中加入懲罰項,從而求解參數時,值較少的參數約等於0,得到更加簡單的函數而且不易於過度擬合,如圖1所示。
正規化線性迴歸(regularized linear regression):
將之前學習到的線性迴歸的cost function:
此時,使用梯度下降算法求解參數:
使用正規方程算法求解參數: