【機器學習基礎第1期】期望風險、經驗風險、結構風險的關係

首先引入損失函數的概念:損失函數就一個具體的樣本而言,模型預測的值與真實值之間的差距。對於一個樣本(xi,yi)其中yi爲真實值,而f(xi)爲我們的預測值。使用損失函數L(f(xi),yi)來表示真實值和預測值之間的差距。兩者差距越小越好,最理想的情況是預測值剛好等於真實值。
常見的損失函數如下:
這裏寫圖片描述

通過損失函數我們可以得知對於單個樣本點的預測能力,對於訓練樣本集中所有數據的預測可以通過累加得到,這就是經驗風險:
這裏寫圖片描述
經驗風險越小則說明對於訓練集數據的擬合程度越好,由於未知樣本的數量不知,無法採取平均值的方式求得。這裏假設X,Y服從聯合分佈P(X,Y),期望風險可表示爲:
這裏寫圖片描述
但是由於聯合分佈函數P(X,Y)是很難求得的。所以期望風險是不容易得到的。

但是如果採用經驗風險來代替期望風險,有可能出現過度擬合的問題,即決策函數對於訓練集幾乎全部擬合,但是對於測試集擬合效果過差,這裏又引入結構風險:
這裏寫圖片描述
經驗風險越小,模型決策函數越複雜,包含參數越多,擬合效果越好,但是到一定程度又容易出現過度擬合的問題,這裏引入正則化項,其中λ是參數,J(f)表示模型複雜度,通過降低模型複雜度來防止過擬合的出現,即λJ(f)的值最小化,因爲經驗風險目的是求的最小化,正則化目的也是求取最小化,因此這裏將兩者相加來求取最小化,即可得結構風險。

經驗風險是局部概念,針對訓練樣本的損失函數,可以求得。
期望風險是全局概念,針對未知測試樣本的損失函數,求不得。
結構風險是兩者的折中處理,是經驗風險和正則化的加和。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章