深度學習中batch size 和 learning rate有什麼關係？

原創

2020-02-23 20:00

參考文章鏈接
參考文章題目：One weird trick for parallelizing convolutional neural networks
具體可看第5頁中。

一般來說，我們batch size 大一些，則learning rate也要大一些。且有一個數學關係。
假設別人最優的結果是這樣的：
$batch size = batch_1$
$learning rate = lr_1$

那麼當我們改變batch size的時候，可能遵循這樣的規律：
$new learning rate = old learning rate * \sqrt{new batch size / old batch size}$

舉例來說，原先別人的batch size 爲128， learning rate爲0.0005，那麼當我們把batch size改爲1024時，則新的學習率有這樣的推薦值： $0.0005*\sqrt{1024/128}=0.0005*\sqrt{8}=0.001412$

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

pytorch保存和加載模型的兩種方式

pytorch中保存和加載模型是綁在一起的。這裏我需要注意一下不同的保存方式對應不同的讀取方式，兩者各有利弊。首先說說pytorch.save()這個函數，可以參考官網：pytroch.save。簡而言之，這個函數可以保存任

月下花弄影

2020-06-23 11:25:21

【python】頻域濾波

頻域濾波主要分爲四個步驟 1）計算源圖像的傅里葉變換結果 2）選擇並計算濾波器 3）將1得到的結果和2的結果相乘 4）對3的結果進行逆傅里葉變換本文提供所有資源下載(自帶圖片)：下載地址結果展示：代碼1：計算濾波器 i

月下花弄影

2020-06-15 17:20:05

矩陣求導法

矩陣求導法 1、前言設y=f(x)y=f(x)y=f(x)且x=[x1 x2 ...xn]Tx=[x_1 \ x_2 \ ... x_n]^{T}x=[x1 x2 ...xn]T，由多元函數微積分可知 dy=∑i=1ndy

「已注销」

2020-07-08 08:57:51

【轉載】中國計算力學大會’2…

原文地址：【轉載】中國計算力學大會’2014（CCCM2014）第一輪通知作者：CFDCAE 一、會議簡介爲推動計算力學領域的學術交流，促進計算力學的發展和工程應用，中國力學學會計算力學專業委員會決定於2014年8月10日-13日在

CAD_CAE_CFD_EDA

2020-07-01 22:48:52

藍以中老師《高等代數》第03章：行列式，筆記

本章總覽如下：本章具體知識點如下：

石贤芝

2020-07-01 02:22:33

藍以中老師《高等代數》第06章：帶度量的線性空間（歐式空間、酉空間）筆記

本章的學習，基於第4章和第5章的知識，前兩章的知識點如果熟悉、理解了，那麼，本章學習就毫無壓力。本章知識結構概覽如下：本章細分知識點如下：

石贤芝

2020-07-01 02:22:33

線性規劃中的對偶（Duality in linear programs）

Introduction 對偶（duality）是優化中的一個重要概念，當原問題的最小值很難求解時，我們常常將其變爲對偶形式，通過求解對偶問題的最大值，從而得到原問題的最優解。我們從最簡單的線性規劃問題入手來介紹對偶的概念。線性

JimmyCM

2020-06-30 19:17:09

次梯度（Subgradients）

總目錄一、凸優化基礎（Convex Optimization basics）凸優化基礎（Convex Optimization basics）二、一階梯度方法（First-order methods）梯度下降（G

JimmyCM

2020-06-30 19:17:09

插值法-解決數據預處理中的缺失

****拉格朗日插值法**** 在平面上有共n個點，現作一條函數使其圖像經過這n個點。作法：作n個多項式。對於第j個多項式，及其角標集，構造是n-1次多項式，且滿足

绿岛小微米

2020-06-28 15:59:24

決策樹-Cart生成和剪枝算法

***************CART算法概述********************** Cart算法類似於ID3算法，其將特徵分類爲按GINI係數，找到該特徵下的一個最優節點進行分類，該特徵被分爲2個類別，比如一個類別中有{學生，

绿岛小微米

2020-06-28 15:59:24

GBDT(生)

GBDT主要由三個概念組成：Regression Decistion Tree（即DT)，Gradient Boosting（即GB)，Shrinkage (算法的一個重要演進分枝，目前大部分源碼都按該版本實現）。搞定這三個概念後就能明白

绿岛小微米

2020-06-28 15:59:24

二次規劃問題轉換爲半正定問題(QPtoSDP)

gophae

2020-06-22 07:09:11

Matlab解析LQR與MPC的關係

mathworks社區中的這個資料還是值得一說的。 openExample('mpc/mpccustomqp') 我們從幾個角度來解析兩者關係，簡單的說就是MPC是帶了約束的LQR. 下面我們從代碼的角度解析這個問題： 1，定

gophae

2020-06-22 07:09:09

PRML Chapter 9.2 Mixtures of Gaussians 混合高斯分佈簡介

單元高斯分佈(The univariate Gaussian)，我們高中時就知道了，其表達式如下： N(x|μ,σ2)=1(2πσ2)1/2exp{−12σ2(x−μ)2} 而多元高斯分佈(Multivariate Gaussian

KevinIceFire

2020-06-16 06:56:31

SA-GAN： self-attention 的 pytorch 實現（針對圖像）

問題基於條件的卷積GAN 在那些約束較少的類別中生成的圖片較好，比如大海，天空等；但是在那些細密紋理，全局結構較強的類別中生成的圖片不是很好，如人臉（可能五官不對應），狗（可能狗腿數量有差，或者毛色不協調）。可能的原因大部分

月下花弄影

2020-06-15 17:20:05

24小時熱門文章

深度學習中batch size 和 learning rate有什麼關係？

Nginx R31 doc 官方文檔-01-nginx 如何安裝

挑戰程序設計競賽 2.2章習題 POJ - 3617 Best Cow Line 貪心

字節面試：MySQL什麼時候鎖表？如何防止鎖表？

.NET8連接SQL SERVER 2008 R2 報：證書鏈是由不受信任的頒發機構頒發的

golang開發環境搭建(win10)

python計算機視覺學習筆記——PIL庫的用法

pytorch中如何同時對image，bounding box, instance mask 進行相同的圖像變換？

pytorch保存和加載模型的兩種方式

【python】頻域濾波

pytorch中int和float如何進行轉化？

SA-GAN： self-attention 的 pytorch 實現（針對圖像）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結