花書+吳恩達深度學習(十九)構建模型策略(訓練模型順序、偏差方差、數據集劃分、數據不匹配)

目錄

0. 前言

1. 調試模型順序

2. 偏差方差的解決方法

3. 數據集的選取劃分

4. 數據不匹配問題

5. 評估指標的選取

6. 貝葉斯最佳誤差


如果這篇文章對你有一點小小的幫助,請給個關注,點個贊喔~我會非常開心的~

花書+吳恩達深度學習(十八)遷移學習和多任務學習

花書+吳恩達深度學習(十九)構建模型策略(訓練模型順序、偏差方差、數據集劃分、數據不匹配)

花書+吳恩達深度學習(二十)構建模型策略(超參數調試、監督預訓練)

0. 前言

本篇文章主要記錄,構建模型調試模型中的一些技巧方法和注意事項。

  • 訓練集:用於訓練模型參數的數據集
  • 開發集:用於調試模型超參數的數據集(相當於平時所說的測試集)
  • 測試集:只用於測試模型性能的數據集

1. 調試模型順序

第一步,降低訓練集上的代價函數

如果不能有效的降低,可以嘗試更大的神經網絡,或更好的優化方法

第二步,降低開發集上的代價函數

如果不能有效的降低,考慮可能是過擬合,使用正則化,或使用更大的訓練集

第三步,降低測試集上的代價函數

如果不能有效的降低,考慮可能是開發集太小和測試集不匹配,使用更大的開發集

第四步,使其在真實世界中表現良好

如果不能有效的表現,考慮可能是開發集或測試集設置選擇的不正確,或者代價函數不能有效的評估誤差

附吳恩達深度學習這部分的課件:

2. 偏差方差的解決方法

偏差,是指模型不能很好的學習到數據的普遍特性,所謂欠擬合

  1. 訓練更大的神經網絡
  2. 使用更好的優化算法
  3. 搜索更好的超參數
  4. 使用不同的神經網絡架構

方差,是指模型過於好的學習了數據,甚至學習了一些數據的個性,所謂過擬合

  1. 更多的訓練數據
  2. 使用正則化
  3. 搜索更好的超參數
  4. 使用不同的神經網絡架構

貝葉斯最佳誤差和訓練集誤差的差距,等效爲偏差。

訓練集誤差和開發集誤差的差距,等效爲方差。

附吳恩達深度學習這部分的課件:

3. 數據集的選取劃分

通常在選取數據集時,會隨機選取。

因爲爲了使模型不失一般性,訓練集開發集測試集應服從同一分佈。

按照以前的數據量劃分,可以劃分爲,60\%\ 20\%\ 20\% 或者 70\%\ 30\%,諸如此類。

在大數據的情況下,例如有 1,000,000 條數據,可能開發集和測試集僅各 10,000 數據就足夠,98\%\ 1\%\ 1\%,諸如此類。

4. 數據不匹配問題

按照模型的一般性來說,訓練集開發集和測試集的數據應屬於同一分佈。

但如果真實環境中,數據的分佈與訓練集不同,最好使得開發集和測試集的分佈與真實環境相似。

例如,在圖像識別中,訓練集的數據是高清的,但是真實環境的圖像是低像素的,最好使得開發集和測試集的數據也是低像素的。這樣可以確保訓練出來的模型可以在真實環境中識別圖像。

當數據的分佈不同時,方差的分析與之前不同。可能僅因爲分佈的不同,造成訓練集誤差和開發集誤差的差距,稱爲數據不匹配,並不是過擬合的高方差。

此時,可將數據如下劃分:

從訓練集中劃分一部分作爲訓練開發集。

因訓練集和訓練開發集屬於同一分佈,當訓練集誤差和訓練開發集誤差有差距的時候,呈現的是高方差問題。

因訓練開發集和開發集不屬於同一分佈,但都用於測試,當訓練開發集誤差和開發集誤差有差距的時候,呈現的是數據不匹配問題。

解決數據不匹配的方法:使得訓練集和開發集測試集的數據分佈儘量相似,可將開發集和測試集部分數據分配至訓練集,或者人工數據合成。

5. 評估指標的選取

對於 Precision 和 Recall ,不同的任務看重不同的指標。

例如,判斷病人患病的情況,患病被判斷爲不患病代價更大(正類被判斷成反類),更看重查全率 Recall 。給用戶推薦商品的情況,推薦了很討厭的商品比沒有推薦到喜歡的商品代價更大(反類被判斷成正類),更看重查準率 Precision 。

可以在代價函數上,對於判錯的不同情況加上權重:

J=\frac{1}{m}\sum_{i=1}^mw^{(i)}\mathbb{I}(\hat{y}\neq y)

如果任務對不同的評估指標沒有偏好。

那麼儘量採用單一的評估指標,有利於比較不同模型。

例如,使用 F1-score 代替 Precision 和 Recall 。

6. 貝葉斯最佳誤差

貝葉斯最佳誤差是指,窮盡各種方法,可以達到的最低的誤差。

在模型訓練的時候,可以根據訓練集誤差和貝葉斯最佳誤差的差距,來衡量偏差。

通常,以人類最好的誤差,來近似貝葉斯最佳誤差。


如果這篇文章對你有一點小小的幫助,請給個關注,點個贊喔~我會非常開心的~

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章