文章Super-Convergence記錄

原創

2018-08-25 03:34

Super-Convergence: Very Fast Training of Residual Networks Using Large Learning Rates
在這篇文章中，作者針對現在訓練較慢，超參數學習率比較難找，給出了自己的解決方案，週期學習率：
將學習率設置一個最大值，和最小值，在給出一個參數stepsize，兩個stepsize爲一個週期，在前半個stepsize內，學習率逐漸從最小值增大到最大值，在後半個stepsize內，學習率從最大值變成最小值，通過這樣設置學習率，文章中的實驗數據指出，只要原始訓練次數的1/3左右，就可以達到相同的準確率，而使用相同的訓練次數，準確率更高，相當於對訓練進行了提速，加速了收斂，因此這篇文章的名字就叫：Super-Convergence，超級收斂

週期學習率策略的本質來自於這樣一個觀察事實：增大學習率在短時間內可能對網絡性能有負面影響，但是長時間來看還是有正面影響。因此，根據這個觀察事實，使學習率在一定範圍內變動而不是固定學習率。因此，就需要設置最小學習率和最大學習率，以及與週期相關的參數：stepsize。

stepsize設定：
假設你有500000張圖像，批處理大小是100，那麼一個epoch就需要500000/100=5000次迭代，那麼stepsize的大小，經過驗證，需要爲這個迭代次數的2-10倍，一般設置2-10之間，結果不會有太大區別，因此可以設置爲2-3倍，這樣，學習率更新的週期短一點。

最大最小學習率
需要通過實驗來獲得，下圖就是通過實驗來獲取網絡結構最小最大學習率，實驗中總共跑了8個epoch，學習率從0一直增加到0.02，從圖中可以看到，網絡很快就開始收斂，因此將學習率最小值設置爲0.001，而到學習率來到0.006時，準確率就開始下降，因此將最大學習率設置爲0.006