深度学习中batch size 和 learning rate有什么关系？

原創

2020-02-23 20:00

参考文章链接
参考文章题目：One weird trick for parallelizing convolutional neural networks
具体可看第5页中。

一般来说，我们batch size 大一些，则learning rate也要大一些。且有一个数学关系。
假设别人最优的结果是这样的：
$batch size = batch_1$
$learning rate = lr_1$

那么当我们改变batch size的时候，可能遵循这样的规律：
$new learning rate = old learning rate * \sqrt{new batch size / old batch size}$

举例来说，原先别人的batch size 为128， learning rate为0.0005，那么当我们把batch size改为1024时，则新的学习率有这样的推荐值： $0.0005*\sqrt{1024/128}=0.0005*\sqrt{8}=0.001412$

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

pytorch保存和加载模型的两种方式

pytorch中保存和加載模型是綁在一起的。這裏我需要注意一下不同的保存方式對應不同的讀取方式，兩者各有利弊。首先說說pytorch.save()這個函數，可以參考官網：pytroch.save。簡而言之，這個函數可以保存任

月下花弄影

2020-06-23 11:25:21

【python】频域滤波

頻域濾波主要分爲四個步驟 1）計算源圖像的傅里葉變換結果 2）選擇並計算濾波器 3）將1得到的結果和2的結果相乘 4）對3的結果進行逆傅里葉變換本文提供所有資源下載(自帶圖片)：下載地址結果展示：代碼1：計算濾波器 i

月下花弄影

2020-06-15 17:20:05

矩阵求导法

矩陣求導法 1、前言設y=f(x)y=f(x)y=f(x)且x=[x1 x2 ...xn]Tx=[x_1 \ x_2 \ ... x_n]^{T}x=[x1 x2 ...xn]T，由多元函數微積分可知 dy=∑i=1ndy

「已注销」

2020-07-08 08:57:51

【转载】中国计算力学大会’2…

原文地址：【轉載】中國計算力學大會’2014（CCCM2014）第一輪通知作者：CFDCAE 一、會議簡介爲推動計算力學領域的學術交流，促進計算力學的發展和工程應用，中國力學學會計算力學專業委員會決定於2014年8月10日-13日在

CAD_CAE_CFD_EDA

2020-07-01 22:48:52

蓝以中老师《高等代数》第03章：行列式，笔记

本章總覽如下：本章具體知識點如下：

石贤芝

2020-07-01 02:22:33

蓝以中老师《高等代数》第06章：带度量的线性空间（欧式空间、酉空间）笔记

本章的學習，基於第4章和第5章的知識，前兩章的知識點如果熟悉、理解了，那麼，本章學習就毫無壓力。本章知識結構概覽如下：本章細分知識點如下：

石贤芝

2020-07-01 02:22:33

线性规划中的对偶（Duality in linear programs）

Introduction 對偶（duality）是優化中的一個重要概念，當原問題的最小值很難求解時，我們常常將其變爲對偶形式，通過求解對偶問題的最大值，從而得到原問題的最優解。我們從最簡單的線性規劃問題入手來介紹對偶的概念。線性

JimmyCM

2020-06-30 19:17:09

次梯度（Subgradients）

總目錄一、凸優化基礎（Convex Optimization basics）凸優化基礎（Convex Optimization basics）二、一階梯度方法（First-order methods）梯度下降（G

JimmyCM

2020-06-30 19:17:09

插值法-解决数据预处理中的缺失

****拉格朗日插值法**** 在平面上有共n個點，現作一條函數使其圖像經過這n個點。作法：作n個多項式。對於第j個多項式，及其角標集，構造是n-1次多項式，且滿足

绿岛小微米

2020-06-28 15:59:24

决策树-Cart生成和剪枝算法

***************CART算法概述********************** Cart算法類似於ID3算法，其將特徵分類爲按GINI係數，找到該特徵下的一個最優節點進行分類，該特徵被分爲2個類別，比如一個類別中有{學生，

绿岛小微米

2020-06-28 15:59:24

GBDT(生)

GBDT主要由三個概念組成：Regression Decistion Tree（即DT)，Gradient Boosting（即GB)，Shrinkage (算法的一個重要演進分枝，目前大部分源碼都按該版本實現）。搞定這三個概念後就能明白

绿岛小微米

2020-06-28 15:59:24

二次规划问题转换为半正定问题(QPtoSDP)

gophae

2020-06-22 07:09:11

Matlab解析LQR与MPC的关系

mathworks社區中的這個資料還是值得一說的。 openExample('mpc/mpccustomqp') 我們從幾個角度來解析兩者關係，簡單的說就是MPC是帶了約束的LQR. 下面我們從代碼的角度解析這個問題： 1，定

gophae

2020-06-22 07:09:09

PRML Chapter 9.2 Mixtures of Gaussians 混合高斯分布简介

單元高斯分佈(The univariate Gaussian)，我們高中時就知道了，其表達式如下： N(x|μ,σ2)=1(2πσ2)1/2exp{−12σ2(x−μ)2} 而多元高斯分佈(Multivariate Gaussian

KevinIceFire

2020-06-16 06:56:31

SA-GAN： self-attention 的 pytorch 实现（针对图像）

問題基於條件的卷積GAN 在那些約束較少的類別中生成的圖片較好，比如大海，天空等；但是在那些細密紋理，全局結構較強的類別中生成的圖片不是很好，如人臉（可能五官不對應），狗（可能狗腿數量有差，或者毛色不協調）。可能的原因大部分

月下花弄影

2020-06-15 17:20:05

24小時熱門文章

深度学习中batch size 和 learning rate有什么关系？

开源高性能结构化日志模块NanoLog

杭州的 IT 崩盘了么？

【简写Mybatis-02】注册机的实现以及SqlSession处理

手绘二维码

.NET借助虚拟网卡实现一个简单异地组网工具

pytorch中如何同時對image，bounding box, instance mask 進行相同的圖像變換？

pytorch保存和加載模型的兩種方式

【python】頻域濾波

pytorch中int和float如何進行轉化？

SA-GAN： self-attention 的 pytorch 實現（針對圖像）

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結