網絡調參時踩過的坑(長期更新)

1.學習率大小的設置

一般情況下,當網絡收斂到一定程度時,loss曲線的變化不明顯,並出現上下的小幅度波動,這時候可以考慮調小學習率,幫助網絡進一步收斂到最優值。如下圖所示:

但有些情況,網絡看似收斂了,但實際上是到了某些平坦的曲面,離最優值還有一段距離。典型的loss curve如下圖所示:

可以觀察到,曲線還在非常穩定地緩慢下降,並且沒有上下波動。這時不要誤以爲網絡已經收斂,而要考慮學習率是否設置得太小了。使用更大的學習率可以幫助訓練過程快速脫離參數空間中平坦的超曲面,從而進一步收斂到最優值。

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章