參考文章鏈接
參考文章題目:One weird trick for parallelizing convolutional neural networks
具體可看第5頁中。
一般來說,我們batch size 大一些,則learning rate也要大一些。且有一個數學關係。
假設別人最優的結果是這樣的:
batchsize=batch1
learningrate=lr1
那麼當我們改變batch size的時候,可能遵循這樣的規律:
newlearningrate=oldlearningrate∗newbatchsize/oldbatchsize
舉例來說,原先別人的batch size 爲128, learning rate爲0.0005, 那麼當我們把batch size改爲1024時,則新的學習率有這樣的推薦值:0.0005∗1024/128=0.0005∗8=0.001412