DL notes 05:深度学习相关的优化基础(入门级)

一、优化与深度学习

优化与估计

尽管优化方法可以最小化深度学习中的损失函数值,但本质上优化方法达到的目标与深度学习的目标并不相同。

  • 优化方法目标:训练集损失函数值
  • 深度学习目标:测试集损失函数值(泛化性)

现实世界中,训练集数据和测试集数据的分布存在差异,因此可能训练和测试过程中误差不尽相同。
train-test-error

优化在深度学习中的挑战

1. 局部最小值

举例:f(x)=xcosπxf(x) = x\cos \pi x
global-local-min

2. 鞍点

举例:一维函数 f(x)=x3f(x) = x^{3}
1d-saddlepoint
对于高维变量输入,我们通过二阶导数Hessian矩阵来说明:
A=[2fx122fx1x22fx1xn2fx2x12fx222fx2xn2fxnx12fxnx22fxn2] A=\left[\begin{array}{cccc}{\frac{\partial^{2} f}{\partial x_{1}^{2}}} & {\frac{\partial^{2} f}{\partial x_{1} \partial x_{2}}} & {\cdots} & {\frac{\partial^{2} f}{\partial x_{1} \partial x_{n}}} \\ {\frac{\partial^{2} f}{\partial x_{2} \partial x_{1}}} & {\frac{\partial^{2} f}{\partial x_{2}^{2}}} & {\cdots} & {\frac{\partial^{2} f}{\partial x_{2} \partial x_{n}}} \\ {\vdots} & {\vdots} & {\ddots} & {\vdots} \\ {\frac{\partial^{2} f}{\partial x_{n} \partial x_{1}}} & {\frac{\partial^{2} f}{\partial x_{n} \partial x_{2}}} & {\cdots} & {\frac{\partial^{2} f}{\partial x_{n}^{2}}}\end{array}\right]
对于多维变量 x=[x1,x2,,xn]\mathbf{x} = [x_1,x_2,\dots,x_n], 当一阶偏导fx=0\frac{\partial f}{\partial \mathbf{x}} = 0 ,二阶偏导有正有负时,则 x\mathbf{x} 这时可称为函数f()f( \cdot )的鞍点。
我们以二维变量举例:z=f(x)=x12x22z=f(\mathbf{x}) = x_1^2-x_2^2
2d-saddlepoint

3. 梯度消失

深度学习中的诸如sigmoidsigmoid,tanhtanh等激活函数在偏离中心的区域梯度逐渐消失,趋近于0。多层这样的激活函数的堆叠,导致深层神经网络训练过程中会经常面临梯度消失的难题。我们以tanhtanh函数图例说明:
vanishing-pts

二、凸优化基础

凸集

凸集1
凸集2
凸集3
在凸集中的示意图中我们可以总结出凸集的几何性质:

  1. 凸集中任意两点连线上的点仍在凸集中
  2. 凸集的交集仍旧是凸集
  3. 凸集的并集不一定是凸集

凸函数

对于凸函数凸性的描述,我们可以引申凸集第一条性质得到如下的不等式:
λf(x)+(1λ)f(x)f(λx+(1λ)x)\lambda f(x)+(1-\lambda) f\left(x^{\prime}\right) \geq f\left(\lambda x+(1-\lambda) x^{\prime}\right)
我们举三个函数的例子来直观的说明函数凸性和上述不等式的对应关系:
convex-non-con
上面的不等式说明任意两点的割线始终位于函数上方,我们泛化到任意点集{xi}\{x_i\},使用数学归纳法,可以证明凸函数满足Jensen不等式:
iαif(xi)f(iαixi)\sum_{i} \alpha_{i} f\left(x_{i}\right) \geq f\left(\sum_{i} \alpha_{i} x_{i}\right)
在概率论中,如果把 αi\alpha_i 看成取值为 xix_i 的离散变量 xx 的概率分布, 就可以得到:
Ex[f(x)]f(Ex[x])E_{x}[f(x)] \geq f\left(E_{x}[x]\right)
其中, E[]E[ \cdot ] 表示期望。

凸函数的性质

  1. 无局部极小值
    证明:(反证法) 假设存在xXx \in X是局部最小值,则存在全局最小值xXx' \in X , 使得f(x)>f(x)f(x) > f(x') , 则对λ(0,1]\lambda \in(0,1] :
    f(x)>λf(x)+(1λ)f(x)f(λx+(1λ)x)f(x)>\lambda f(x)+(1-\lambda) f(x^{\prime}) \geq f(\lambda x+(1-\lambda) x^{\prime})
    可以观察到f(x)f(x)xx的邻域内并非达到局部最小,至此证毕。

  2. 与凸集的关系
    结论:对于凸函数f(x)f(x) ,定义集合Sb:={xxX and f(x)b}S_{b}:=\{x | x \in X \text { and } f(x) \leq b\} ,则集合SbS_b 为凸集。
    证明:对于点x,xSbx,x' \in S_b , 有f(λx+(1λ)x)λf(x)+(1λ)f(x)bf\left(\lambda x+(1-\lambda) x^{\prime}\right) \leq \lambda f(x)+(1-\lambda) f\left(x^{\prime}\right) \leq b , 故λx+(1λ)xSb\lambda x+(1-\lambda) x^{\prime} \in S_{b} 对映凸集的第一条性质。
    这里举一个非凸函数来可视化这条性质:
    f(x,y)=0.5x2+cos(2πy)f(x, y)=0.5 x^{2}+\cos (2 \pi y)
    non-conv-2d
    从等高线图中可以看出,当都满足小于某一特定值时,可能形成无交集的两部分,取值集合不具有凸性。

  3. 凸函数与二阶导数
    结论f(x)0f(x)f^{''}(x) \ge 0 \Longleftrightarrow f(x)是凸函数
    证明:必要性(\Leftarrow
    对于凸函数:
    12f(x+ϵ)+12f(xϵ)f(x+ϵ2+xϵ2)=f(x)\frac{1}{2} f(x+\epsilon)+\frac{1}{2} f(x-\epsilon) \geq f\left(\frac{x+\epsilon}{2}+\frac{x-\epsilon}{2}\right)=f(x)
    故:
    f(x)=limε0f(x+ϵ)f(x)ϵf(x)f(xϵ)ϵϵf^{\prime \prime}(x)=\lim _{\varepsilon \rightarrow 0} \frac{\frac{f(x+\epsilon) - f(x)}{\epsilon}-\frac{f(x) - f(x-\epsilon)}{\epsilon}}{\epsilon}f(x)=limε0f(x+ϵ)+f(xϵ)2f(x)ϵ20f^{\prime \prime}(x)=\lim _{\varepsilon \rightarrow 0} \frac{f(x+\epsilon)+f(x-\epsilon)-2 f(x)}{\epsilon^{2}} \geq 0
    充分性(\Rightarrow
    a<x<ba < x < bf(x)f(x) 上的三个点,由拉格朗日中值定理:
    f(x)f(a)=(xa)f(α) for some α[a,x] and f(b)f(x)=(bx)f(β) for some β[x,b]\begin{array}{l}{f(x)-f(a)=(x-a) f^{\prime}(\alpha) \text { for some } \alpha \in[a, x] \text { and }} \\ {f(b)-f(x)=(b-x) f^{\prime}(\beta) \text { for some } \beta \in[x, b]}\end{array}
    根据单调性,有 f(β)f(α)f^{\prime}(\beta) \geq f^{\prime}(\alpha), 故:
    f(b)f(a)=f(b)f(x)+f(x)f(a)=(bx)f(β)+(xa)f(α)(ba)f(α)\begin{aligned} f(b)-f(a) &=f(b)-f(x)+f(x)-f(a) \\ &=(b-x) f^{\prime}(\beta)+(x-a) f^{\prime}(\alpha) \\ & \geq(b-a) f^{\prime}(\alpha) \end{aligned}
    凸函数二阶导数

有限制条件凸函数的优化方法

举例:
minimizexf(x) subject to ci(x)0 for all i{1,,N}\begin{array}{l}{\underset{\mathbf{x}}{\operatorname{minimize}} f(\mathbf{x})} \\ {\text { subject to } c_{i}(\mathbf{x}) \leq 0 \text { for all } i \in\{1, \ldots, N\}}\end{array}

1. 拉格朗日乘子法

L(x,α)=f(x)+iαici(x) where αi0L(\mathbf{x}, \alpha)=f(\mathbf{x})+\sum_{i} \alpha_{i} c_{i}(\mathbf{x}) \text { where } \alpha_{i} \geq 0

2. 添加惩罚项

欲使ci(x)0c_i(x) \leq 0 , 将项αici(x)\alpha_ic_i(x) 加入目标函数,如多层感知机章节中的λ2w2\frac{\lambda}{2} ||w||^2

3. 投影法

ProjX(x)=argminxXxx2\operatorname{Proj}_{X}(\mathbf{x})=\underset{\mathbf{x}^{\prime} \in X}{\operatorname{argmin}}\left\|\mathbf{x}-\mathbf{x}^{\prime}\right\|_{2}
proj

三、梯度下降

理想的梯度下降发生在局部凸函数中。

一维梯度下降

证明:沿梯度反方向移动自变量可以减小函数值
泰勒展开:
f(x+ϵ)=f(x)+ϵf(x)+O(ϵ2)f(x+\epsilon)=f(x)+\epsilon f^{\prime}(x)+\mathcal{O}\left(\epsilon^{2}\right)
代入沿梯度方向的移动量ηf(x),η(0,1]\eta f^{\prime}(x),\eta\in(0,1]:
f(xηf(x))=f(x)ηf2(x)+O(η2f2(x))f\left(x-\eta f^{\prime}(x)\right)=f(x)-\eta f^{\prime 2}(x)+\mathcal{O}\left(\eta^{2} f^{\prime 2}(x)\right)f(xηf(x))f(x)f\left(x-\eta f^{\prime}(x)\right) \lesssim f(x)xxηf(x)x \leftarrow x-\eta f^{\prime}(x)其中η\eta被称为学习率/步长,当学习率过大时,梯度下降无法收敛到局部最小值。
学习率过大
当学习率过小时,收敛速度缓慢。
学习率过小
除面临如何选择合适的学习率的问题,梯度下降还经常被局部最小值所困扰:
局部最小值

多维梯度下降

仅在一维梯度下降中就面临学习率选择,局部最小值陷阱的问题。在多维梯度下降中,这两个问题变得更复杂。对于多维梯度下降,我们可以用数学语言表示成:
f(x)=[f(x)x1,f(x)x2,,f(x)xd]\nabla f(\mathbf{x})=\left[\frac{\partial f(\mathbf{x})}{\partial x_{1}}, \frac{\partial f(\mathbf{x})}{\partial x_{2}}, \dots, \frac{\partial f(\mathbf{x})}{\partial x_{d}}\right]^{\top}f(x+ϵ)=f(x)+ϵf(x)+O(ϵ2)f(\mathbf{x}+\epsilon)=f(\mathbf{x})+\epsilon^{\top} \nabla f(\mathbf{x})+\mathcal{O}\left(\|\epsilon\|^{2}\right)xxηf(x)\mathbf{x} \leftarrow \mathbf{x}-\eta \nabla f(\mathbf{x})
以二维梯度下降举例:
f(x)=x12+2x22f(x) = x_1^2 + 2x_2^2

eta = 0.1

def f_2d(x1, x2):  # 目标函数
    return x1 ** 2 + 2 * x2 ** 2

def gd_2d(x1, x2):
    return (x1 - eta * 2 * x1, x2 - eta * 4 * x2)

def train_2d(trainer, steps=20):
    x1, x2 = -5, -2
    results = [(x1, x2)]
    for i in range(steps):
        x1, x2 = trainer(x1, x2)
        results.append((x1, x2))
    print('epoch %d, x1 %f, x2 %f' % (i + 1, x1, x2))
    return results

2d梯度下降
对于多维梯度下降,我们通过考虑二阶导数来实现自动选择学习率,这里我们首先介绍牛顿法:

牛顿法

x+ϵx + \epsilon 处泰勒展开(此处使用二次展开,并使用peano余项):
f(x+ϵ)=f(x)+ϵf(x)+12ϵf(x)ϵ+O(ϵ3)f(\mathbf{x}+\epsilon)=f(\mathbf{x})+\epsilon^{\top} \nabla f(\mathbf{x})+\frac{1}{2} \epsilon^{\top} \nabla \nabla^{\top} f(\mathbf{x}) \epsilon+\mathcal{O}\left(\|\epsilon\|^{3}\right)

最小值点处满足:f(x)=0\nabla f(\mathbf{x})=0 即我们希望f(x+ϵ)=0\nabla f(\mathbf{x} + \epsilon)=0 , 对上式关于 ϵ\epsilon 求导,忽略高阶无穷小,有:f(x)+Hfϵ=0 and hence ϵ=Hf1f(x)\nabla f(\mathbf{x})+\boldsymbol{H}_{f} \boldsymbol{\epsilon}=0 \text { and hence } \epsilon=-\boldsymbol{H}_{f}^{-1} \nabla f(\mathbf{x})
这样我们就获得了牛顿法对变量的更新公式。

牛顿法的收敛性分析

只考虑在函数为凸函数(或在局部凸函数的范围内), 且最小值点上 f(x)>0f''(x^*) > 0时的收敛速度:
xkx_k 为第 kk 次迭代后 xx 的值, ek:=xkxe_k:=x_k−x^∗ 表示 xkx_k 到最小值点 xx^∗ 的距离,由f(x)=0f'(x^{*}) = 0,展开成Lagrange余项形式:
0=f(xkek)=f(xk)ekf(xk)+12ek2f(ξk)for some ξk[xkek,xk]0=f^{\prime}\left(x_{k}-e_{k}\right)=f^{\prime}\left(x_{k}\right)-e_{k} f^{\prime \prime}\left(x_{k}\right)+\frac{1}{2} e_{k}^{2} f^{\prime \prime \prime}\left(\xi_{k}\right) \text{for some } \xi_{k} \in\left[x_{k}-e_{k}, x_{k}\right]
两边除以 f(xk)f′′(x_k) , 有:
ekf(xk)/f(xk)=12ek2f(ξk)/f(xk)e_{k}-f^{\prime}\left(x_{k}\right) / f^{\prime \prime}\left(x_{k}\right)=\frac{1}{2} e_{k}^{2} f^{\prime \prime \prime}\left(\xi_{k}\right) / f^{\prime \prime}\left(x_{k}\right)
代入更新方程 xk+1=xkf(xk)/f(xk)x_{k+1}=x_k−f′(x_k)/f′′(x_k) , 得到:
xkxf(xk)/f(xk)=12ek2f(ξk)/f(xk)x_k - x^{*} - f^{\prime}\left(x_{k}\right) / f^{\prime \prime}\left(x_{k}\right) =\frac{1}{2} e_{k}^{2} f^{\prime \prime \prime}\left(\xi_{k}\right) / f^{\prime \prime}\left(x_{k}\right)xk+1x=ek+1=12ek2f(ξk)/f(xk)x_{k+1} - x^{*} = e_{k+1} = \frac{1}{2} e_{k}^{2} f^{\prime \prime \prime}\left(\xi_{k}\right) / f^{\prime \prime}\left(x_{k}\right)
12f(ξk)/f(xk)c\frac{1}{2} f^{\prime \prime \prime}\left(\xi_{k}\right) / f^{\prime \prime}\left(x_{k}\right) \leq c 时,有:
ek+1cek2e_{k+1} \leq c e_{k}^{2}
我们称之为具有二阶收敛速度。

预处理(Heissan阵辅助梯度下降)

在牛顿法中,我们需要计算Heissan矩阵来进行变量的更新,Heissan矩阵大小是d×dd\times d,其中dd代表变量的维度,计算复杂度为O(d2)\mathcal{O}(d^{2})。我们改用Heissan阵的对角阵diag(Hf)diag(H_f)来代替Heissan阵进行变量更新,diag(Hf)diag(H_f)的计算复杂度降至O(d)\mathcal{O}(d),同时也能对各维度变量变化尺度进行归一化的处理,保证各方向下降速率基本一致。
xxηdiag(Hf)1x\mathbf{x} \leftarrow \mathbf{x}-\eta \operatorname{diag}\left(H_{f}\right)^{-1} \nabla \mathbf{x}

梯度下降与线性搜索(共轭梯度法)(略)

随机梯度下降

在实际的优化过程中,对于求解Heissan阵这样耗费计算的步骤仍然是无法实现的,因此对牛顿法进行进一步的松弛,我们得到简单计算即可迭代的随机梯度下降算法。

随机梯度下降参数更新

对于有 nn 个样本对训练数据集,设 fi(x)f_i(x) 是第 ii 个样本的损失函数, 则目标函数为:
f(x)=1ni=1nfi(x)f(\mathbf{x})=\frac{1}{n} \sum_{i=1}^{n} f_{i}(\mathbf{x})
其梯度为:
f(x)=1ni=1nfi(x)\nabla f(\mathbf{x})=\frac{1}{n} \sum_{i=1}^{n} \nabla f_{i}(\mathbf{x})
使用该梯度的一次更新的时间复杂度为O(n)\mathcal{O}(n),这种梯度下降的更新算法也被称为最速梯度下降法。我们每次更新都要计算数据集中全部样本的梯度。
而随机梯度下降是最速梯度下降的变种,每次迭代仅对一个样本计算梯度,其时间复杂度为O(1)\mathcal{O}(1):
xxηfi(x)\mathbf{x} \leftarrow \mathbf{x}-\eta \nabla f_{i}(\mathbf{x})
且有:
Eifi(x)=1ni=1nfi(x)=f(x)\mathbb{E}_{i} \nabla f_{i}(\mathbf{x})=\frac{1}{n} \sum_{i=1}^{n} \nabla f_{i}(\mathbf{x})=\nabla f(\mathbf{x})

举例:
f(x1,x2)=x12+2x22f(x_1, x_2) = x_1^2 + 2 x_2^2

eta = 0.1
lr = (lambda: 1)  # Constant learning rate

def f(x1, x2):
    return x1 ** 2 + 2 * x2 ** 2  # Objective

def gradf(x1, x2):
    return (2 * x1, 4 * x2)  # Gradient

def sgd(x1, x2):  # Simulate noisy gradient
    global lr  # Learning rate scheduler
    (g1, g2) = gradf(x1, x2)  # Compute gradient
    (g1, g2) = (g1 + np.random.normal(0.1), g2 + np.random.normal(0.1))
    eta_t = eta * lr()  # Learning rate at time t
    return (x1 - eta_t * g1, x2 - eta_t * g2)  # Update variables

sgd

动态学习率

在随机梯度下降的过程中,我们可以发现学习率应当随着学习过程的进行而逐渐减小。这里借用李宏毅老师的课件来说明学习率设定的重要性:
学习率的重要
下面介绍几种设置动态学习率的方法:
η(t)=ηi if titti+1 piecewise constant η(t)=η0eλt exponential η(t)=η0(βt+1)α polynomial \begin{array}{ll}{\eta(t)=\eta_{i} \text { if } t_{i} \leq t \leq t_{i+1}} & {\text { piecewise constant }} \\ {\eta(t)=\eta_{0} \cdot e^{-\lambda t}} & {\text { exponential }} \\ {\eta(t)=\eta_{0} \cdot(\beta t+1)^{-\alpha}} & {\text { polynomial }}\end{array}

小批量随机梯度下降

在使用随机梯度下降算法的过程中我们会发现,更新的梯度受所选定的样本影响很大,即方差很大。会导致梯度下降过程中出现偏离局部最小值方向的更新。但如果使用所有样本进行梯度计算又会占用高计算资源,因此我们采用一种折衷的办法来进行随机梯度下降。也就是批量梯度下降(与小批量梯度下降的原理相同)。随机从样本中选取一部分数据计算当前的平均梯度方向,迭代速度比最速梯度下降法更快,比随机梯度下降每次更新梯度方向精度更高。

随机梯度下降:loss: 0.245968, 0.463836 sec per epoch,2 epoch
single-sgd
小批量随机梯度下降:loss: 0.243900, 0.065017 sec per epoch,batch_size=10,2 epoch
minibatch

四、优化算法

梯度下降优化法经历了SGD→SGDM→NAG→AdaGrad→AdaDelta→RMSProp→Adam→Nadam这样的发展历程。之所以会不断地提出更加优化的方法,究其原因,是引入了动量(Momentum)这个概念。最初,人们引入一阶动量来给梯度下降法加入惯性(即,越陡的坡可以允许跑得更快些)。后来,在引入二阶动量之后,才真正意味着“自适应学习率”优化算法时代的到来。

动量法(Momentum)

Dive into DL Section 11.4 中,目标函数有关自变量的梯度代表了目标函数在自变量当前位置下降最快的方向。因此,梯度下降也叫作最速下降(steepest descent)。在每次迭代中,梯度下降根据自变量当前位置,沿着当前位置的梯度更新自变量。然而,如果自变量的迭代方向仅仅取决于自变量当前位置,这可能会带来一些问题。对于noisy gradient,我们需要谨慎的选取学习率和batch size, 来控制梯度方差和收敛的结果。
gt=w1BtiBtf(xi,wt1)=1BtiBtgi,t1. \mathbf{g}_t = \partial_{\mathbf{w}} \frac{1}{|\mathcal{B}_t|} \sum_{i \in \mathcal{B}_t} f(\mathbf{x}_{i}, \mathbf{w}_{t-1}) = \frac{1}{|\mathcal{B}_t|} \sum_{i \in \mathcal{B}_t} \mathbf{g}_{i, t-1}.

An ill-conditioned Problem

Condition Number of Hessian Matrix:

condH=λmaxλmin cond_{H} = \frac{\lambda_{max}}{\lambda_{min}}

where λmax,λmin\lambda_{max}, \lambda_{min} is the maximum amd minimum eignvalue of Hessian matrix.

让我们考虑一个输入和输出分别为二维向量x=[x1,x2]\boldsymbol{x} = [x_1, x_2]^\top和标量的目标函数:

f(x)=0.1x12+2x22 f(\boldsymbol{x})=0.1x_1^2+2x_2^2

condH=40.2=20ill-conditioned cond_{H} = \frac{4}{0.2} = 20 \quad \rightarrow \quad \text{ill-conditioned}

最大学习率限制条件

  • For f(x)f(x), according to convex optimizaiton conclusions, we need step size η<1L\eta < \frac{1}{L} to have the fastest convergence, where L=maxx2f(x)L=max_{x} \nabla^{2}f(x).
  • To guarantee the convergence, we need to have η<2L\eta < \frac{2}{L} .

Supp: Preconditioning

在二阶优化中,我们使用Hessian matrix的逆矩阵(或者pseudo inverse)来左乘梯度向量 i.e.Δx=H1gi.e. \Delta_{x} = H^{-1}\mathbf{g},这样的做法称为precondition,相当于将 HH 映射为一个单位矩阵,拥有分布均匀的Spectrum,也即我们去优化的等价标函数的Hessian matrix为良好的identity matrix。

Dive into DL Section 11.4一节中不同,这里将x12x_1^2系数从11减小到了0.10.1。下面实现基于这个目标函数的梯度下降,并演示使用学习率为0.40.4时自变量的迭代轨迹。
lr调整
可以看到,同一位置上,目标函数在竖直方向(x2x_2轴方向)比在水平方向(x1x_1轴方向)的斜率的绝对值更大。因此,给定学习率,梯度下降迭代自变量时会使自变量在竖直方向比在水平方向移动幅度更大。那么,我们需要一个较小的学习率从而避免自变量在竖直方向上越过目标函数最优解。然而,这会造成自变量在水平方向上朝最优解移动变慢。

下面我们试着将学习率调得稍大一点,此时自变量在竖直方向不断越过最优解并逐渐发散。当学习率为0.6时,L=maxx2f(x)=[4,0.2]L= max_{x} \nabla^{2}f(x) = [4,0.2]2L=[0.5,10]\frac{2}{L} = [0.5,10],已经超出范围,因此在其中一个维度上无法收敛。
lr调整2

Solution to ill-condition

  • Preconditioning gradient vector: applied in Adam, RMSProp, AdaGrad, Adelta, KFC, Natural gradient and other secord-order optimization algorithms.
  • Averaging history gradient: like momentum, which allows larger learning rates to accelerate convergence; applied in Adam, RMSProp, SGD momentum.

Momentum Algorithm

动量法的提出是为了解决梯度下降的上述问题。设时间步 tt 的自变量为 xt\boldsymbol{x}_t,学习率为 ηt\eta_t
在时间步 t=0t=0,动量法创建速度变量 m0\boldsymbol{m}_0,并将其元素初始化成 0。在时间步 t>0t>0,动量法对每次迭代的步骤做如下修改:

mtβmt1+ηtgt,xtxt1mt, \begin{aligned} \boldsymbol{m}_t &\leftarrow \beta \boldsymbol{m}_{t-1} + \eta_t \boldsymbol{g}_t, \\ \boldsymbol{x}_t &\leftarrow \boldsymbol{x}_{t-1} - \boldsymbol{m}_t, \end{aligned}

Another version:

mtβmt1+(1β)gt,xtxt1αtmt, \begin{aligned} \boldsymbol{m}_t &\leftarrow \beta \boldsymbol{m}_{t-1} + (1-\beta) \boldsymbol{g}_t, \\ \boldsymbol{x}_t &\leftarrow \boldsymbol{x}_{t-1} - \alpha_t \boldsymbol{m}_t, \end{aligned}

αt=ηt1β \alpha_t = \frac{\eta_t}{1-\beta}

其中,动量超参数 β\beta满足 0β<10 \leq \beta < 1。当 β=0\beta=0 时,动量法等价于小批量随机梯度下降。

在解释动量法的数学原理前,让我们先从实验中观察梯度下降在使用动量法后的迭代轨迹。

eta, beta = 0.4, 0.5

def momentum_2d(x1, x2, v1, v2):
    v1 = beta * v1 + eta * 0.2 * x1
    v2 = beta * v2 + eta * 4 * x2
    return x1 - v1, x2 - v2, v1, v2

epoch 20, x1 -0.062843, x2 0.001202
momentum1
可以看到使用较小的学习率 η=0.4\eta=0.4 和动量超参数 β=0.5\beta=0.5 时,动量法在竖直方向上的移动更加平滑,且在水平方向上更快逼近最优解。下面使用较大的学习率 η=0.6\eta=0.6,此时自变量也不再发散
η=0.6\eta=0.6: epoch 20, x1 0.007188, x2 0.002553
momentum2

指数加权平均(Exponential Moving Average)

为了从数学上理解动量法,让我们先解释一下指数加权移动平均(exponential moving average)。给定超参数 0β<10 \leq \beta < 1,当前时间步 tt 的变量 yty_t 是上一时间步 t1t-1 的变量 yt1y_{t-1} 和当前时间步另一变量 xtx_t 的线性组合:

yt=βyt1+(1β)xt. y_t = \beta y_{t-1} + (1-\beta) x_t.

我们可以对 yty_t 展开:

yt=(1β)xt+βyt1=(1β)xt+(1β)βxt1+β2yt2=(1β)xt+(1β)βxt1+(1β)β2xt2+β3yt3=(1β)i=0tβixti \begin{aligned} y_t &= (1-\beta) x_t + \beta y_{t-1}\\ &= (1-\beta)x_t + (1-\beta) \cdot \beta x_{t-1} + \beta^2y_{t-2}\\ &= (1-\beta)x_t + (1-\beta) \cdot \beta x_{t-1} + (1-\beta) \cdot \beta^2x_{t-2} + \beta^3y_{t-3}\\ &= (1-\beta) \sum_{i=0}^{t} \beta^{i}x_{t-i} \end{aligned}

(1β)i=0tβi=1βt1β(1β)=(1βt) (1-\beta)\sum_{i=0}^{t} \beta^{i} = \frac{1-\beta^{t}}{1-\beta} (1-\beta) = (1-\beta^{t})

指数加权平均的优势

我们可以看到指数加权平均的求解过程实际上是一个递推的过程,那么这样就会有一个非常大的好处,每当我要求从0到某一时刻(n)的平均值的时候,我并不需要像普通求解平均值的作为,保留所有的时刻值,类和然后除以n。

而是只需要保留0~(n-1)时刻的平均值和n时刻的值即可。也就是每次只需要保留常数值,然后进行运算即可,这对于深度学习中的海量数据来说,是一个很好的减少内存和空间的做法。

Supp

Approximate Average of 11β\frac{1}{1-\beta} Steps

n=1/(1β)n = 1/(1-\beta),那么 (11/n)n=β1/(1β)\left(1-1/n\right)^n = \beta^{1/(1-\beta)}。因为

limn(11n)n=exp(1)0.3679, \lim_{n \rightarrow \infty} \left(1-\frac{1}{n}\right)^n = \exp(-1) \approx 0.3679,

所以当 β1\beta \rightarrow 1时,β1/(1β)=exp(1)\beta^{1/(1-\beta)}=\exp(-1),如 0.9520exp(1)0.95^{20} \approx \exp(-1)。如果把 exp(1)\exp(-1) 当作一个比较小的数,我们可以在近似中忽略所有含 β1/(1β)\beta^{1/(1-\beta)} 和比 β1/(1β)\beta^{1/(1-\beta)} 更高阶的系数的项。例如,当 β=0.95\beta=0.95 时,

yt0.05i=0190.95ixti. y_t \approx 0.05 \sum_{i=0}^{19} 0.95^i x_{t-i}.

因此,在实际中,我们常常将 yty_t 看作是对最近 1/(1β)1/(1-\beta) 个时间步的 xtx_t 值的加权平均。例如,当 γ=0.95\gamma = 0.95 时,yty_t 可以被看作对最近20个时间步的 xtx_t 值的加权平均;当 β=0.9\beta = 0.9 时,yty_t 可以看作是对最近10个时间步的 xtx_t 值的加权平均。而且,离当前时间步 tt 越近的 xtx_t 值获得的权重越大(越接近1)。

由指数加权移动平均理解动量法

现在,我们对动量法的速度变量做变形:

mtβmt1+(1β)(ηt1βgt). \boldsymbol{m}_t \leftarrow \beta \boldsymbol{m}_{t-1} + (1 - \beta) \left(\frac{\eta_t}{1 - \beta} \boldsymbol{g}_t\right).

Another version:

mtβmt1+(1β)gt. \boldsymbol{m}_t \leftarrow \beta \boldsymbol{m}_{t-1} + (1 - \beta) \boldsymbol{g}_t.

xtxt1αtmt, \begin{aligned} \boldsymbol{x}_t &\leftarrow \boldsymbol{x}_{t-1} - \alpha_t \boldsymbol{m}_t, \end{aligned}

αt=ηt1β \alpha_t = \frac{\eta_t}{1-\beta}

由指数加权移动平均的形式可得,速度变量 vt\boldsymbol{v}_t 实际上对序列 {ηtigti/(1β):i=0,,1/(1β)1}\{\eta_{t-i}\boldsymbol{g}_{t-i} /(1-\beta):i=0,\ldots,1/(1-\beta)-1\} 做了指数加权移动平均。换句话说,相比于小批量随机梯度下降,动量法在每个时间步的自变量更新量近似于将前者对应的最近 1/(1β)1/(1-\beta) 个时间步的更新量做了指数加权移动平均后再除以 1β1-\beta。所以,在动量法中,自变量在各个方向上的移动幅度不仅取决当前梯度,还取决于过去的各个梯度在各个方向上是否一致。在本节之前示例的优化问题中,所有梯度在水平方向上为正(向右),而在竖直方向上时正(向上)时负(向下)。这样,我们就可以使用较大的学习率,从而使自变量向最优解更快移动。

SGDM

相对于小批量随机梯度下降,动量法需要对每一个自变量维护一个同它一样形状的速度变量,且超参数里多了动量超参数。实现中,我们将速度变量用更广义的状态变量states表示。

def init_momentum_states():
    v_w = torch.zeros((features.shape[1], 1), dtype=torch.float32)
    v_b = torch.zeros(1, dtype=torch.float32)
    return (v_w, v_b)

def sgd_momentum(params, states, hyperparams):
    for p, v in zip(params, states):
        v.data = hyperparams['momentum'] * v.data + hyperparams['lr'] * p.grad.data
        p.data -= v.data

AdaGrad

在之前介绍过的优化算法中,目标函数自变量的每一个元素在相同时间步都使用同一个学习率来自我迭代。举个例子,假设目标函数为ff,自变量为一个二维向量[x1,x2][x_1, x_2]^\top,该向量中每一个元素在迭代时都使用相同的学习率。例如,在学习率为η\eta的梯度下降中,元素x1x_1x2x_2都使用相同的学习率η\eta来自我迭代:

x1x1ηfx1,x2x2ηfx2. x_1 \leftarrow x_1 - \eta \frac{\partial{f}}{\partial{x_1}}, \quad x_2 \leftarrow x_2 - \eta \frac{\partial{f}}{\partial{x_2}}.

在动量法中我们看到当x1x_1x2x_2的梯度值有较大差别时,需要选择足够小的学习率使得自变量在梯度值较大的维度上不发散。但这样会导致自变量在梯度值较小的维度上迭代过慢。动量法依赖指数加权移动平均使得自变量的更新方向更加一致,从而降低发散的可能。本节我们介绍AdaGrad算法,它根据自变量在每个维度的梯度值的大小来调整各个维度上的学习率,从而避免统一的学习率难以适应所有维度的问题 [1]。

Algorithm

AdaGrad算法会使用一个小批量随机梯度gt\boldsymbol{g}_t按元素平方的累加变量st\boldsymbol{s}_t。在时间步0,AdaGrad将s0\boldsymbol{s}_0中每个元素初始化为0。在时间步tt,首先将小批量随机梯度gt\boldsymbol{g}_t按元素平方后累加到变量st\boldsymbol{s}_t

stst1+gtgt, \boldsymbol{s}_t \leftarrow \boldsymbol{s}_{t-1} + \boldsymbol{g}_t \odot \boldsymbol{g}_t,

其中\odot是按元素相乘。接着,我们将目标函数自变量中每个元素的学习率通过按元素运算重新调整一下:

xtxt1ηst+ϵgt, \boldsymbol{x}_t \leftarrow \boldsymbol{x}_{t-1} - \frac{\eta}{\sqrt{\boldsymbol{s}_t + \epsilon}} \odot \boldsymbol{g}_t,

其中η\eta是学习率,ϵ\epsilon是为了维持数值稳定性而添加的常数,如10610^{-6}。这里开方、除法和乘法的运算都是按元素运算的。这些按元素运算使得目标函数自变量中每个元素都分别拥有自己的学习率。

Feature

需要强调的是,小批量随机梯度按元素平方的累加变量st\boldsymbol{s}_t出现在学习率的分母项中。因此,如果目标函数有关自变量中某个元素的偏导数一直都较大,那么该元素的学习率将下降较快;反之,如果目标函数有关自变量中某个元素的偏导数一直都较小,那么该元素的学习率将下降较慢。然而,由于st\boldsymbol{s}_t一直在累加按元素平方的梯度,自变量中每个元素的学习率在迭代过程中一直在降低(或不变)。所以,当学习率在迭代早期降得较快且当前解依然不佳时,AdaGrad算法在迭代后期由于学习率过小,可能较难找到一个有用的解。

下面我们仍然以目标函数f(x)=0.1x12+2x22f(\boldsymbol{x})=0.1x_1^2+2x_2^2为例观察AdaGrad算法对自变量的迭代轨迹。我们实现AdaGrad算法并使用和上一节实验中相同的学习率0.4。可以看到,自变量的迭代轨迹较平滑。但由于st\boldsymbol{s}_t的累加效果使学习率不断衰减,自变量在迭代后期的移动幅度较小。

# 二维示例
def f_2d(x1, x2):
    return 0.1 * x1 ** 2 + 2 * x2 ** 2
    
def adagrad_2d(x1, x2, s1, s2):
    g1, g2, eps = 0.2 * x1, 4 * x2, 1e-6  # 前两项为自变量梯度
    s1 += g1 ** 2
    s2 += g2 ** 2
    x1 -= eta / math.sqrt(s1 + eps) * g1
    x2 -= eta / math.sqrt(s2 + eps) * g2
    return x1, x2, s1, s2

adagrad

   # 多维实现
def init_adagrad_states():
    s_w = torch.zeros((features.shape[1], 1), dtype=torch.float32)
    s_b = torch.zeros(1, dtype=torch.float32)
    return (s_w, s_b)

def adagrad(params, states, hyperparams):
    eps = 1e-6
    for p, s in zip(params, states):
        s.data += (p.grad.data**2)
        p.data -= hyperparams['lr'] * p.grad.data / torch.sqrt(s + eps)

RMSProp

AdaGrad因为调整学习率时分母上的变量st\boldsymbol{s}_t一直在累加按元素平方的小批量随机梯度,所以目标函数自变量每个元素的学习率在迭代过程中一直在降低(或不变)。因此,当学习率在迭代早期降得较快且当前解依然不佳时,AdaGrad算法在迭代后期由于学习率过小,可能较难找到一个有用的解。为了解决这一问题,RMSProp算法对AdaGrad算法做了修改。该算法源自Coursera上的一门课程,即“机器学习的神经网络”。

Algorithm

我们之前提及过指数加权移动平均。不同于AdaGrad算法里状态变量st\boldsymbol{s}_t是截至时间步tt所有小批量随机梯度gt\boldsymbol{g}_t按元素平方和,RMSProp算法将这些梯度按元素平方做指数加权移动平均。具体来说,给定超参数0γ00 \leq \gamma 0计算

vtβvt1+(1β)gtgt. \boldsymbol{v}_t \leftarrow \beta \boldsymbol{v}_{t-1} + (1 - \beta) \boldsymbol{g}_t \odot \boldsymbol{g}_t.

和AdaGrad算法一样,RMSProp算法将目标函数自变量中每个元素的学习率通过按元素运算重新调整,然后更新自变量

xtxt1αvt+ϵgt, \boldsymbol{x}_t \leftarrow \boldsymbol{x}_{t-1} - \frac{\alpha}{\sqrt{\boldsymbol{v}_t + \epsilon}} \odot \boldsymbol{g}_t,

其中η\eta是学习率,ϵ\epsilon是为了维持数值稳定性而添加的常数,如10610^{-6}。因为RMSProp算法的状态变量st\boldsymbol{s}_t是对平方项gtgt\boldsymbol{g}_t \odot \boldsymbol{g}_t的指数加权移动平均,所以可以看作是最近1/(1β)1/(1-\beta)个时间步的小批量随机梯度平方项的加权平均。如此一来,自变量每个元素的学习率在迭代过程中就不再一直降低(或不变)。

照例,让我们先观察RMSProp算法对目标函数f(x)=0.1x12+2x22f(\boldsymbol{x})=0.1x_1^2+2x_2^2中自变量的迭代轨迹。回忆在AdaGrad算法一节使用的学习率为0.4的AdaGrad算法,自变量在迭代后期的移动幅度较小。但在同样的学习率下,RMSProp算法可以更快逼近最优解。
rmsprop

RMSProp 实现

def init_rmsprop_states():
    s_w = torch.zeros((features.shape[1], 1), dtype=torch.float32)
    s_b = torch.zeros(1, dtype=torch.float32)
    return (s_w, s_b)

def rmsprop(params, states, hyperparams):
    gamma, eps = hyperparams['beta'], 1e-6
    for p, s in zip(params, states):
        s.data = gamma * s.data + (1 - gamma) * (p.grad.data)**2
        p.data -= hyperparams['lr'] * p.grad.data / torch.sqrt(s + eps)

我们将初始学习率设为0.01,并将超参数γ\gamma设为0.9。此时,变量st\boldsymbol{s}_t可看作是最近1/(10.9)=101/(1-0.9) = 10个时间步的平方项gtgt\boldsymbol{g}_t \odot \boldsymbol{g}_t的加权平均。

AdaDelta

除了RMSProp算法以外,另一个常用优化算法AdaDelta算法也针对AdaGrad算法在迭代后期可能较难找到有用解的问题做了改进。有意思的是,AdaDelta算法没有学习率这一超参数。

Algorithm

AdaDelta算法也像RMSProp算法一样,使用了小批量随机梯度gt\boldsymbol{g}_t按元素平方的指数加权移动平均变量st\boldsymbol{s}_t。在时间步0,它的所有元素被初始化为0。给定超参数0ρ00 \leq \rho 0,同RMSProp算法一样计算

stρst1+(1ρ)gtgt. \boldsymbol{s}_t \leftarrow \rho \boldsymbol{s}_{t-1} + (1 - \rho) \boldsymbol{g}_t \odot \boldsymbol{g}_t.

与RMSProp算法不同的是,AdaDelta算法还维护一个额外的状态变量Δxt\Delta\boldsymbol{x}_t,其元素同样在时间步0时被初始化为0。我们使用Δxt1\Delta\boldsymbol{x}_{t-1}来计算自变量的变化量:

gtΔxt1+ϵst+ϵgt, \boldsymbol{g}_t' \leftarrow \sqrt{\frac{\Delta\boldsymbol{x}_{t-1} + \epsilon}{\boldsymbol{s}_t + \epsilon}} \odot \boldsymbol{g}_t,

其中ϵ\epsilon是为了维持数值稳定性而添加的常数,如10510^{-5}。接着更新自变量:

xtxt1gt. \boldsymbol{x}_t \leftarrow \boldsymbol{x}_{t-1} - \boldsymbol{g}'_t.

最后,我们使用Δxt\Delta\boldsymbol{x}_t来记录自变量变化量gt\boldsymbol{g}'_t按元素平方的指数加权移动平均:

ΔxtρΔxt1+(1ρ)gtgt. \Delta\boldsymbol{x}_t \leftarrow \rho \Delta\boldsymbol{x}_{t-1} + (1 - \rho) \boldsymbol{g}'_t \odot \boldsymbol{g}'_t.

可以看到,如不考虑ϵ\epsilon的影响,AdaDelta算法与RMSProp算法的不同之处在于使用Δxt1\sqrt{\Delta\boldsymbol{x}_{t-1}}来替代超参数η\eta

AdaDelta实现

AdaDelta算法需要对每个自变量维护两个状态变量,即st\boldsymbol{s}_tΔxt\Delta\boldsymbol{x}_t。我们按AdaDelta算法中的公式实现该算法。

def init_adadelta_states():
    s_w, s_b = torch.zeros((features.shape[1], 1), dtype=torch.float32), torch.zeros(1, dtype=torch.float32)
    delta_w, delta_b = torch.zeros((features.shape[1], 1), dtype=torch.float32), torch.zeros(1, dtype=torch.float32)
    return ((s_w, delta_w), (s_b, delta_b))

def adadelta(params, states, hyperparams):
    rho, eps = hyperparams['rho'], 1e-5
    for p, (s, delta) in zip(params, states):
        s[:] = rho * s + (1 - rho) * (p.grad.data**2)
        g =  p.grad.data * torch.sqrt((delta + eps) / (s + eps))
        p.data -= g
        delta[:] = rho * delta + (1 - rho) * g * g

Adam

Adam算法在RMSProp算法基础上对小批量随机梯度也做了指数加权移动平均。下面我们来介绍这个算法。

Algorithm

Adam算法使用了动量变量mt\boldsymbol{m}_t和RMSProp算法中小批量随机梯度按元素平方的指数加权移动平均变量vt\boldsymbol{v}_t,并在时间步0将它们中每个元素初始化为0。给定超参数0β1<10 \leq \beta_1 < 1(算法作者建议设为0.9),时间步tt的动量变量mt\boldsymbol{m}_t即小批量随机梯度gt\boldsymbol{g}_t的指数加权移动平均:

mtβ1mt1+(1β1)gt. \boldsymbol{m}_t \leftarrow \beta_1 \boldsymbol{m}_{t-1} + (1 - \beta_1) \boldsymbol{g}_t.

和RMSProp算法中一样,给定超参数0β2<10 \leq \beta_2 < 1(算法作者建议设为0.999),
将小批量随机梯度按元素平方后的项gtgt\boldsymbol{g}_t \odot \boldsymbol{g}_t做指数加权移动平均得到vt\boldsymbol{v}_t

vtβ2vt1+(1β2)gtgt. \boldsymbol{v}_t \leftarrow \beta_2 \boldsymbol{v}_{t-1} + (1 - \beta_2) \boldsymbol{g}_t \odot \boldsymbol{g}_t.

由于我们将m0\boldsymbol{m}_0s0\boldsymbol{s}_0中的元素都初始化为0,
在时间步tt我们得到mt=(1β1)i=1tβ1tigi\boldsymbol{m}_t = (1-\beta_1) \sum_{i=1}^t \beta_1^{t-i} \boldsymbol{g}_i。将过去各时间步小批量随机梯度的权值相加,得到 (1β1)i=1tβ1ti=1β1t(1-\beta_1) \sum_{i=1}^t \beta_1^{t-i} = 1 - \beta_1^t。需要注意的是,当tt较小时,过去各时间步小批量随机梯度权值之和会较小。例如,当β1=0.9\beta_1 = 0.9时,m1=0.1g1\boldsymbol{m}_1 = 0.1\boldsymbol{g}_1。为了消除这样的影响,对于任意时间步tt,我们可以将mt\boldsymbol{m}_t再除以1β1t1 - \beta_1^t,从而使过去各时间步小批量随机梯度权值之和为1。这也叫作偏差修正。在Adam算法中,我们对变量mt\boldsymbol{m}_tvt\boldsymbol{v}_t均作偏差修正:

m^tmt1β1t, \hat{\boldsymbol{m}}_t \leftarrow \frac{\boldsymbol{m}_t}{1 - \beta_1^t},

v^tvt1β2t. \hat{\boldsymbol{v}}_t \leftarrow \frac{\boldsymbol{v}_t}{1 - \beta_2^t}.

接下来,Adam算法使用以上偏差修正后的变量m^t\hat{\boldsymbol{m}}_tm^t\hat{\boldsymbol{m}}_t,将模型参数中每个元素的学习率通过按元素运算重新调整:

gtηm^tv^t+ϵ, \boldsymbol{g}_t' \leftarrow \frac{\eta \hat{\boldsymbol{m}}_t}{\sqrt{\hat{\boldsymbol{v}}_t} + \epsilon},

其中η\eta是学习率,ϵ\epsilon是为了维持数值稳定性而添加的常数,如10810^{-8}。和AdaGrad算法、RMSProp算法以及AdaDelta算法一样,目标函数自变量中每个元素都分别拥有自己的学习率。最后,使用gt\boldsymbol{g}_t'迭代自变量:

xtxt1gt. \boldsymbol{x}_t \leftarrow \boldsymbol{x}_{t-1} - \boldsymbol{g}_t'.

Adam实现

我们按照Adam算法中的公式实现该算法。其中时间步tt通过hyperparams参数传入adam函数。

def init_adam_states():
    v_w, v_b = torch.zeros((features.shape[1], 1), dtype=torch.float32), torch.zeros(1, dtype=torch.float32)
    s_w, s_b = torch.zeros((features.shape[1], 1), dtype=torch.float32), torch.zeros(1, dtype=torch.float32)
    return ((v_w, s_w), (v_b, s_b))

def adam(params, states, hyperparams):
    beta1, beta2, eps = 0.9, 0.999, 1e-6
    for p, (v, s) in zip(params, states):
        v[:] = beta1 * v + (1 - beta1) * p.grad.data
        s[:] = beta2 * s + (1 - beta2) * p.grad.data**2
        v_bias_corr = v / (1 - beta1 ** hyperparams['t'])
        s_bias_corr = s / (1 - beta2 ** hyperparams['t'])
        p.data -= hyperparams['lr'] * v_bias_corr / (torch.sqrt(s_bias_corr) + eps)
    hyperparams['t'] += 1
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章