根據下圖中的文章https://arxiv.org/abs/1706.02677提出的Linear Scale Rule:
學習的大小要和總batch_size成正比(同時考慮每個GPU處理的圖片數量和GPU數量)
圖1 文章名字
圖2 linear scale rule