Machine Learning Yearning31~32

1.如果訓練誤差比較小,低於期望的誤差,而驗證誤差卻較高於尋來你誤差,這時,bias較小,variance較大,增加訓練數據也許能夠減小驗證誤差和訓練誤差。但是,如果訓練誤差本來就比較大,而且驗證誤差更大,這時bias和variance都大,就得想辦法同時減少bias和variance了。
2.在畫學習曲線時,當樣本很小時,根據數據集的不同情況,會出現學習曲線震動非常厲害的情況,比如都取了負樣本,這時很難看出學習曲線正確的趨勢。以下有兩個辦法來解決這個問題:1,選取多組小樣本訓練數據,有放回抽樣(無放回也可以),對每個模型得到的驗證結果進行平均;2,如果原本訓練數據類別極度不平衡,或者類別數量特變多,那我們可以選擇一個相對平衡的子集而不是完全隨機選取(以防全都是某一類的情況出現),比如使得選取的數據每類的比例和原始數據每類的比例接近相同。
當然如果原始是數據很大,每類數量分佈比較均勻,那麼就沒有必要使用這些技巧。
那麼當數據量非常大,使用均勻間隔畫學習曲線的代價非常大,那麼就可以使用不均勻間隔進行,比如逐漸增大間隔。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章