【機器學習】經驗風險最小化與結構風險最小化

1. 損失函數和風險函數

損失函數度量模型一次預測的好壞,風險函數度量平均意義下模型預測的好壞。

常用的損失函數有以下幾種:

(1)0-1損失函數(0-1 loss function)

                                             L\left( {Y,f\left( X \right)} \right) = \left\{ {\begin{array}{*{20}{c}} {1,}&{Y \ne f\left( X \right)}\\ {0,}&{Y = f\left( X \right)} \end{array}} \right.                     (1)

(2)平方損失函數(quadratic loss function)

                                             L\left( {Y,f\left( X \right)} \right) = {\left( {Y - f\left( X \right)} \right)^2}                    (2)

(3)絕對損失函數(absolute loss function)

                                              L\left( {Y,f\left( X \right)} \right) = \left| {Y - f\left( X \right)} \right|                    (3)

(4)對數損失函數(logarithmic loss function)或對數似然損失函數(log-likelihood loss function)

                                              L\left( {Y,P\left( {Y\left| X \right.} \right)} \right) = - \log P\left( {Y\left| X \right.} \right)                    (4)

損失函數值越小,模型就越好。由於模型的輸入輸出\left( {X,Y} \right)是隨機變量,遵循聯合分佈P\left( {X,Y} \right),所以損失函數的期望是:

                                    {R_{\exp }}\left( f \right) = {E_p}\left[ {L\left( {Y,f\left( X \right)} \right)} \right] = \int {L\left( {y,f\left( x \right)} \right)} P\left( {x,y} \right)dxdy                    (5)

這是理論上模型f\left( X \right)關於聯合分佈P\left( {X,Y} \right)的期望損失,稱爲期望風險。

然而,聯合分佈P\left( {X,Y} \right)是未知的,期望風險{R_{\exp }}\left( f \right)不能直接計算,可以近似爲f\left( X \right)關於訓練數據集的平均損失,也就是經驗風險(empirical risk),即:

                                             {R_{emp}}\left( f \right) = \frac{1}{N}\sum\limits_{i = 1}^N {L\left( {{y_i},f\left( {{x_i}} \right)} \right)}                    (6)

根據大數定律,當樣本容量N趨於無窮時,經驗風險{R_{emp}}\left( f \right)趨於期望風險{R_{\exp }}\left( f \right)。但是現實中訓練樣本數目有限,用經驗風險來估計期望風險往往並不理想,要對經驗風險進行一定的矯正,也就是形成結構風險。

2. 經驗風險最小化與結構風險最小化

2.1 經驗風險最小化(empirical risk minimization,ERM)

經驗風險最小化的策略認爲,經驗風險最小的模型是最優的模型:

                                             \mathop {\min }\limits_{f \in F} \frac{1}{N}\sum\limits_{i = 1}^N {L\left( {{y_i},f\left( {{x_i}} \right)} \right)}                    (7)

當樣本容量足夠大時,經驗風險最小化能保證有很好的學習效果。比如,極大似然估計(就是經驗風險最小化的一個例子,當模型是條件概率分佈,損失函數是對數損失函數時,經驗風險最小化就等價於極大似然估計。

但當樣本容量很小時,經驗風險最小化容易導致“過擬合”。

2.2 結構風險最小化

結構風險最小化(structural minimization, SRM)是爲了防止過擬合提出的策略。結構風險最小化等價於正則化(regularization)。結構風險在經驗風險上加上表示模型複雜度的正則化項(regularizer)或罰項(penalty term)。結構風險的定義是:

                                             {R_{srm}}\left( f \right) = \frac{1}{N}\sum\limits_{i = 1}^N {L\left( {{y_i},f\left( {{x_i}} \right)} \right)} + \lambda J\left( f \right)                    (8)

其中J\left( f \right)是模型複雜度的函數,\lambda \ge 0是係數,用來權衡經驗風險和模型複雜度。

結構風險最小化的策略認爲結構風險最小的模型是最優模型:

                                             \mathop {\min }\limits_{f \in F} \left[ {\frac{1}{N}\sum\limits_{i = 1}^N {L\left( {{y_i},f\left( {{x_i}} \right)} \right)} + \lambda J\left( f \right)} \right]                    (9)

結構風險小需要經驗風險和模型複雜度同時都小,結構風險小的模型往往對訓練數據以及未知的測試數據都有較好的預測。

比如,貝葉斯估計中的最大後驗概率估計(maximum posterior probability estimation,MAP)就是結構風險最小化的一個例子,當模型是條件概率分佈、損失函數是對數損失函數、模型複雜度由模型的先驗概率表示時,結構風險最小化就等價於最大後驗概率估計。

參考文獻:

1. 《統計學習方法》第一章統計學習方法概論——李航 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章