吳恩達學習筆記——訓練集與驗證集,方差與偏差

在機器學習或者深度學習中,我們在訓練模型的時候,要考慮模型訓練、模型評估以及模型在新數據集上的表現,在給我們的數據中,我們要通過一定的數據集切分方式來達到這個效果。

訓練/驗證/測試

這裏寫圖片描述
我們在做的時候,會按照佔比把數據集切分成三份,訓練集、驗證集和測試集,有時候只需要切分成訓練集和測試集。在這裏這三個的功能分別爲:

訓練集

一般佔比比較大,用來訓練模型

驗證集

用來評估哪個模型更好

測試集

測試模型在新數據上的表現程度

數據集切分方式

當我們的數據量不是很龐大時:
假如有100/1000/10000,我們通常會採取6:2:2分或者7:3分,這是經過測試最好的分法。
現在大數據時代,一般數據量會比較大:
當數據達到10w/100w/1000w,我們一般會把訓練集放高一點,比如99.5:0.25:0.25或者99.5:0.4:0.1,即使驗證集和測試集只有0.25或者0.1,但是在數據量很大的情況下,它們的數據已經有上萬了。

方差與偏差

當我們用模型訓練數據,測試模型時,會有一定的訓練誤差,我們可以簡單的根據訓練誤差來評測我們的模型是不是符合我們的需要。

假如我們的模型的訓練集誤差只有1%,在驗證集上的誤差爲11%,說明它的擬合度較高,但是在驗證集上表現較差,說明過擬合,驗證集與訓練集誤差相差較大,我們說它是高方差的。

假如我們的模型的訓練集誤差爲15%,驗證集誤差爲16%,說明它擬合較差,在驗證集上表現也差,但驗證集與訓練集誤差相差較小,這說明它是欠擬合的,我們說他是高偏差的。

如果在訓練集和驗證集上表現都差,而且訓練集與測試集誤差相差大,這說明它是高方差,高偏差,即模型不合適。

我們要通過一定的方式解決上述問題,讓我們的模型達到低方差、低偏差,從而得到一個好模型:

解決高方差

我們可以採取更多的數據,或者模型正則化,或者更換新的更適合的模型

解決高偏差

對於深度網絡我們可以擴大網絡規模,延長訓練時間,對於機器學習可以進行調參,或者更換新模型。


學習網址:http://mooc.study.163.com/learn/2001281003?tid=2001391036#/learn/content?type=detail&id=2001702114&cid=2001700053
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章