Cyclical Learning Rates

學習率的設置是深度學習中一個比較重要的問題,Cyclical Learning Rates(CLR)提出了一種新的方法,即讓學習率週期性的變化,而不是像之前的方法那樣讓學習率單調遞減變化.

Cyclical learning rates其實比較簡單,只需要3個參數:

 

(1)base_lr:學習率的最小值;

(2)max_lr:學習率的最大值;

(3)stepsize:變化週期的一半.

如何確定max_lr呢?給出了用不同的學習率訓練CIFAR-10得到的精確度,如下圖碩士,取得最高準確度的學習率的2倍就是max_lr,base_lr是max_lr的1/4~1/3.

通過實驗,證明了Cyclical learning rates可以用更少的迭代次數獲得更高的精確度.

下面是更加詳細的實驗結果:

雖然CLR的提出是爲了避免自適應學習率(Adaptive learning rates)的巨大計算量,但是在實際中,往往把兩者結合起來使用,如MMDetection3D就把CLR和AdamW結合起來使用.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章