深度學習中batch size 和 learning rate有什麼關係?

參考文章鏈接
參考文章題目:One weird trick for parallelizing convolutional neural networks
具體可看第5頁中。

一般來說,我們batch size 大一些,則learning rate也要大一些。且有一個數學關係。
假設別人最優的結果是這樣的:
batchsize=batch1batch size = batch_1
learningrate=lr1learning rate = lr_1

那麼當我們改變batch size的時候,可能遵循這樣的規律:
newlearningrate=oldlearningratenewbatchsize/oldbatchsizenew learning rate = old learning rate * \sqrt{new batch size / old batch size}

舉例來說,原先別人的batch size 爲128, learning rate爲0.0005, 那麼當我們把batch size改爲1024時,則新的學習率有這樣的推薦值:0.00051024/128=0.00058=0.0014120.0005*\sqrt{1024/128}=0.0005*\sqrt{8}=0.001412

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章