文章Super-Convergence記錄

Super-Convergence: Very Fast Training of Residual Networks Using Large Learning Rates
在這篇文章中,作者針對現在訓練較慢,超參數學習率比較難找,給出了自己的解決方案,週期學習率:
將學習率設置一個最大值,和最小值,在給出一個參數stepsize,兩個stepsize爲一個週期,在前半個stepsize內,學習率逐漸從最小值增大到最大值,在後半個stepsize內,學習率從最大值變成最小值,通過這樣設置學習率,文章中的實驗數據指出,只要原始訓練次數的1/3左右,就可以達到相同的準確率,而使用相同的訓練次數,準確率更高,相當於對訓練進行了提速,加速了收斂,因此這篇文章的名字就叫:Super-Convergence,超級收斂

週期學習率策略的本質來自於這樣一個觀察事實:增大學習率在短時間內可能對網絡性能有負面影響,但是長時間來看還是有正面影響。因此,根據這個觀察事實,使學習率在一定範圍內變動而不是固定學習率。因此,就需要設置最小學習率和最大學習率,以及與週期相關的參數:stepsize。
這裏寫圖片描述

stepsize設定
假設你有500000張圖像,批處理大小是100,那麼一個epoch就需要500000/100=5000次迭代,那麼stepsize的大小,經過驗證,需要爲這個迭代次數的2-10倍,一般設置2-10之間,結果不會有太大區別,因此可以設置爲2-3倍,這樣,學習率更新的週期短一點。

最大最小學習率
需要通過實驗來獲得,下圖就是通過實驗來獲取網絡結構最小最大學習率,實驗中總共跑了8個epoch,學習率從0一直增加到0.02,從圖中可以看到,網絡很快就開始收斂,因此將學習率最小值設置爲0.001,而到學習率來到0.006時,準確率就開始下降,因此將最大學習率設置爲0.006
這裏寫圖片描述

結論
googlenet,alexnet的學習率測試:
這裏寫圖片描述

這裏寫圖片描述

相關的收斂速度與結果測試對比:
這裏寫圖片描述
這裏寫圖片描述

這裏寫圖片描述

這裏寫圖片描述

這裏寫圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章