機器學習之損失函數和風險函數

原創

木三思

2020-02-22 09:34

損失函數

監督學習問題是在假設的空間F中選取模型 f 作爲決策函數，對於給定的輸入 X,由 f(x) 給定輸出Y, 這個輸出的預測值與真實值 Y可能不一致，用一個函數來度量預測錯誤的程度表示這種不一致，這個函數就是損失函數或者代價函數；

通常的損失函數如下：

損失函數值越小，模型越好；由於模式的輸入，輸出（X,Y）是隨機變量，有聯合分佈P(X,Y) 所以損失函數的期望是：

上面關於聯合概率的平均意義下的損失，也被叫做風險函數；

由於聯合概率是未知的，不能從上氏中求出風險函數；而對於給到的訓練集

T = {(X,Y),(X2，Y2),.........}

模型 f(x) 關於訓練集數據的平均損失稱爲經驗風險：

根據大數定律：當樣本容量趨於無窮大的時候，經驗風險趨於期望風險

經驗風險和結構風險最小化

經驗最小化求解的最優模型：

當樣本容量足夠大的時候，經驗風險最小化能保證有很好的學習效果，但樣本數量小的時候，就會產生“過擬合”現象。因爲參數太多，會導致我們的模型複雜度上升，容易過擬合（訓練誤差會很小），但訓練誤差小不是我們的終極目標，我們的目標也是測試誤差也小，所以我們要保證模型最簡單的基礎下最小化訓練誤差；模型複雜度可以通過正則函數來實現（約束我們的模型特徵），強行的讓模型稀疏，低秩，平滑等

結構風險最小化是爲了防止過擬合提出的策略，結構風險最小化等價於正則化。結構風險的經驗在經驗風險上加上表示模型複雜度的正則化項或懲罰項；結構風險的定義：

其中 J( f ) 爲模型的複雜度

誤差

在多項式函數擬閤中可以看到，隨着多項式的次數（模型複雜度）的增加，訓練誤差會減少，直到趨於0；而測試誤差會先減小，達到最小值後又增大（如下圖）當選擇的模型複雜度過大時候，過擬合現象(過擬合就是模型訓練的時候誤差很小，但在測試的時候誤差很大，也就是我們的模型複雜到可以擬合到我們的所有訓練樣本，但在實際測試新的樣本的時候，就不行了；說白了就是應試能力很強，實際應用很差)就會發生；這樣學習的時候就要防止過擬合，進行最優化模型選擇，選擇複雜度適當的模型；下面介紹兩種常用模型的選擇方法：正則化於交叉驗證