學習曲線的含義
學習曲線就是一種很好的工具,我經常使用學習曲線來判斷某一個學習算法是否處於偏差、方差問題。學習曲線是學習算法的一個很好的合理檢驗(sanity check)。學習曲線是將訓練集誤差和交叉驗證集誤差作爲訓練集樣本數量的函數繪製的圖表。
如果我們有100行數據,我們從1行數據開始,逐漸學習更多行的數據。當訓練較少行數據的時候,訓練的模型將能夠非常完美地適應較少的訓練數據,但是訓練出來的模型卻不能很好地適應交叉驗證集數據或測試集數據
欠擬合的學習曲線
無論訓練集有多麼大誤差都不會有太大改觀:
在高偏差/欠擬合的情況下,增加數據到訓練集不一定能有幫助
過擬合的學習曲線
假設我們使用一個非常高次的多項式模型,並且正則化非常小,可以看出,當交叉驗證集誤差遠大於訓練集誤差時,往訓練集增加更多數據可以提高模型的效果。如下圖,當訓練集增加之後,和 的會縮小
在高方差/過擬合的情況下,增加更多數據到訓練集可能可以提高算法效果(吐個槽:居然還只是可能...,原視頻中用的 is likely to...)