期望誤差和經驗誤差的關係——期望誤差上界

  機器學習希望最小化模型的期望(泛化)誤差$L$,即模型在整個數據分佈上的平均誤差。然而我們只能在訓練集上最小化經驗誤差$\hat{L}$,我們期望通過最小化經驗誤差來最小化泛化誤差。但是訓練數據和數據真實分佈之間是有差異的,又根據奧卡姆剃刀原理,在訓練誤差相同的情況下,模型複雜度越小,泛化性能越好,因此一些理論提出使用經驗誤差和模型複雜度來估計模型期望誤差的上界。通常表示爲以下形式:

$\displaystyle L \leq \hat{L}+\mathcal{O}\left(\sqrt{\frac{Complexity}{n}}\right)$

$\displaystyle \mathop{E}\limits_{x,y\sim \mathfrak{B}}L(g(x),y) \leq \sum\limits_{i=1}^n L(g(x_i),y_i)+\mathcal{O}\left(\sqrt{\frac{G_{Complex}}{n}}\right)$

  其中$n$表示訓練數據量,$g$表示擬合完後的模型,$G$表示$g$的假設類(優化空間),$g\in G$,$G_{Complex}$表示假設類的複雜度。這些不等式的主要區別在於對模型複雜度的量化,即不等式右邊第二項。

VC維

  VC維表示模型(假設類、優化空間)一定可以完美擬合的最大數據量,一定程度上度量了模型的表示能力。比如對於二維線性模型$f(x) =\sigma( w_1x_1+w_2x_2+b)$,其VC維爲3。可以很容易判斷在二維空間中任意的三個點都是線性可分的,從而$f(x)$可以完美劃分擬合。而對於4個點,出現異或的情況時,二維線性模型就不能劃分了。

  對於VC維爲$h$的模型,期望誤差上界爲

$\displaystyle L \leq \hat{L}+\sqrt{\frac{h(\log(2N/h)+1)-\log(\eta/4)}{N}}$

  其中右側稱爲風險邊界,其中$\eta$爲置信度,取值$(0,1]$。不等式成立的概率爲$1-\eta$。

  參考:

  https://blog.csdn.net/qq_43391414/article/details/111692672

  https://zhuanlan.zhihu.com/p/94480190

Rademacher複雜度

  Rademacher複雜度是一種衡量模型複雜度的度量,特別是在處理大樣本限定的統計學習中。對於一個數據集,Rademacher複雜度被定義爲隨機分配標籤後,模型能夠擬合這些隨機標籤的能力。直觀上看,如果一個模型可以很好地擬合隨機的噪聲,那麼它可能過於複雜,有過擬合的風險。相較於VC維,Rademacher複雜度與數據相關,因此最終得到的bound更緊,對於調節模型複雜度具有更強的指導意義。

  對於一個給定的假設類(例如某個待優化的線性模型,或所有的深度爲2的決策樹),和給定的數據集大小$n$,我們可以計算假設類的Rademacher複雜度。爲了計算Rademacher複雜度,我們隨機分配標籤給數據集,然後找到在這個隨機標籤數據集上誤差最小的假設,計算這個假設在這個隨機標籤數據集上的正確率。重複這一過程多次,平均得到的所有正確率。則這個平均正確率就是假設類的Rademacher複雜度。

  比如對於包含$n$個訓練樣本的二分類任務,假設類爲$G$,其Rademacher複雜度$\mathfrak{R}_n(G)$表示爲:

$\displaystyle\mathfrak{R}_n(G)=\mathop{E}\limits_\sigma\left[\sup_{g\in G}\frac{1}{n}\sum_{i=1}^n \sigma_ig(x_i)\right]$

  其中隨機數據集標籤$\sigma$服從在$\{-1,+1\}^n$上的均勻分佈。相應的望誤差上界爲:

$\displaystyle L\leq\hat{L}+2\mathfrak{R}_n(G)+\sqrt{\frac{\log\frac{1}{\delta}}{2n}}$

$\displaystyle L\leq\hat{L}+2\mathfrak{R}_n(G)+3\sqrt{\frac{\log\frac{2}{\delta}}{2n}}$

  以上兩個不等式同時在$1-\delta$的概率下成立。

  參考:

  ChatGPT 4.0

  https://www.zhihu.com/question/264208923

  https://zhuanlan.zhihu.com/p/337298338

  

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章