深度学习中batch size 和 learning rate有什么关系?

参考文章链接
参考文章题目:One weird trick for parallelizing convolutional neural networks
具体可看第5页中。

一般来说,我们batch size 大一些,则learning rate也要大一些。且有一个数学关系。
假设别人最优的结果是这样的:
batchsize=batch1batch size = batch_1
learningrate=lr1learning rate = lr_1

那么当我们改变batch size的时候,可能遵循这样的规律:
newlearningrate=oldlearningratenewbatchsize/oldbatchsizenew learning rate = old learning rate * \sqrt{new batch size / old batch size}

举例来说,原先别人的batch size 为128, learning rate为0.0005, 那么当我们把batch size改为1024时,则新的学习率有这样的推荐值:0.00051024/128=0.00058=0.0014120.0005*\sqrt{1024/128}=0.0005*\sqrt{8}=0.001412

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章