Lesson 2 Improving Deep Neural Networks:Hyperparameter tuning, Regularization and Optimization

这篇文章其实是 Coursera 上吴恩达老师的深度学习专业课程的第二门课程的课程笔记。

参考了其他人的笔记继续归纳的。

训练，验证，测试集 (Train / Dev / Test sets)

在机器学习发展的小数据量时代，常见做法是将所有数据三七分，就是人们常说的 70% 训练集，30% 测试集。如果明确设置了验证集，也可以按照 60% 训练集，20% 验证集和 20% 测试集来划分。这是前几年机器学习领域普遍认可的最好的实践方法。

如果只有 100 条，1000 条或者 1 万条数据，那么上述比例划分是非常合理的。

但是在大数据时代，我们现在的数据量可能是百万级别，那么验证集和测试集占数据总量的比例会趋向于变得更小。因为验证集的目的就是验证不同的算法，检验哪种算法更有效，因此，验证集只要足够大到能评估不同的算法，比如 2 个甚至 10 个不同算法，并迅速判断出哪种算法更有效。我们可能不需要拿出 20% 的数据作为验证集。

比如我们有 100 万条数据，那么取 1 万条数据便足以进行评估，找出其中表现最好的 1-2 种算法。同样地，根据最终选择的分类器，测试集的主要目的是正确评估分类器的性能，所以，如果拥有百万数据，我们只需要 1000 条数据，便足以评估单个分类器，并且准确评估该分类器的性能。假设我们有 100 万条数据，其中 1 万条作为验证集，1 万条作为测试集，100 万里取 1 万，比例是 1%，即：训练集占 98%，验证集和测试集各占 1%。对于数据量过百万的应用，训练集可以占到 99.5%，验证和测试集各占 0.25%，或者验证集占 0.4%，测试集占 0.1%。

因为我们要用验证集来评估不同的模型，尽可能地优化性能，所以我们尽量要使验证集和测试集来自同一分布。

偏差，方差 (Bias/Variance)

假设这就是数据集，如果给这个数据集拟合一条直线，可能得到一个逻辑回归拟合，但它并不能很好地拟合该数据，这是高偏差（high bias）的情况，我们称为“欠拟合”（underfitting）。

相反的如果我们拟合一个非常复杂的分类器，比如深度神经网络或含有隐藏单元的神经网络，可能就非常适用于这个数据集，但是这看起来也不是一种很好的拟合方式分类器方差较高（high variance），数据过度拟合（overfitting）。

在两者之间，可能还有一些像图中这样的，复杂程度适中，数据拟合适度的分类器，这个数据拟合看起来更加合理，我们称之为“适度拟合”（just right）是介于过度拟合和欠拟合中间的一类。

在这样一个只有 \(x_1\) 和 \(x_2\) 两个特征的二维数据集中，我们可以绘制数据，将偏差和方差可视化。在多维空间数据中，绘制数据和可视化分割边界无法实现，但我们可以通过几个指标，来研究偏差和方差。

以下就是几种情况，知道模型有什么样的表现，我们就能对应的采取什么样的策略去调试。

吴恩达老师在训练神经网络时用到的基本方法如下。

初始模型训练完成后，首先得知道算法的偏差高不高，如果偏差较高，那么试着评估训练集或训练数据的性能。如果偏差的确很高，甚至无法拟合训练集，那么我们要做的就是选择一个新的网络，比如说含有更多隐藏层或者隐藏单元的网络，或者花费更多时间来训练网络，或者尝试更先进的优化算法。

在训练学习算法时，我们需要不断尝试这些方法，直到解决偏差问题，这是最低标准。直到可以拟合数据为止，至少能够拟合训练集。

旦偏差降低到可以接受的数值，检查一下方差有没有问题，为了评估方差，我们要查看验证集性能，我们能从一个性能理想的训练集推断出验证集的性能是否也理想，如果方差高，最好的解决办法就是采用更多数据，但有时候，我们无法获得更多数据，所以可以尝试通过正则化来减少过拟合。系统地说出做法很难，总之就是不断重复尝试，直到找到一个低偏差、低方差的框架。

正则化 (Regularization)

正则化是解决深度学习存在高方差问题的方法。

\(L2\) 正则化

L2 正则化的作用原理

以逻辑回归为例。，求代价函数 \(J\) 的最小值。在逻辑回归函数中加入正则化，只需添加参数 \(\lambda\)，也就是正则化参数。

\(\frac{\lambda}{2m}\) 乘以参数 \(w\) 范数的平方，即 \(\left\| w \right\|_2^2\) 是 \(w\) 的欧几里得范数的平方，等于 \(w_j\)（\(j\) 值从 1 到 \(n_x\)）平方的和，也可表示为 \(w^Tw\)，也就是向量参数 \(w\) 的欧几里得范数（2 范数）的平方。这个方法称为 \(L2\) 正则化，因为这里用了欧几里得范数，被称为向量参数 \(w\) 的 \(L2\) 范数。
\[ J(w,b)=\frac{1}{m} \sum^m_{i=1}{L(\hat{y}^{(i)},y^{(i)})}+\frac{\lambda}{2m}\left\|w\right\|^2_2 \]
至于为什么只正则化参数 \(w\)，而不再加上参数 \(b\) 呢？可以，但没必要。因为 \(w\) 通常是一个高纬度参数矢量，已经可以表达高偏差问题，\(w\) 可能包含有很多参数，而我们不可能拟合所有参数，\(b\) 只是单个数字，所以 \(w\) 几乎涵盖所有参数。如果加了参数 \(b\)，其实也没太大影响。

\(L2\) 正则化是最常见的正则化类型，其实也有 \(L1\) 正则化。它加的不是 \(L2\) 范数，而是正则项 \(\frac{\lambda}{m}\) 乘以 \(\sum^{n_x}_{j=1}\left|w\right|\)。其中，\(\sum^{n_x}_{j=1}\left|w\right|\) 也被称为参数 \(w\) 向量的 \(L1\) 范数，无论分母是 \(m\) 还是 \(2m\)，它都是一个比例常量。
\[ J(w,b)=\frac{1}{m} \sum^m_{i=1}{L(\hat{y}^{(i)},y^{(i)})}+\frac{\lambda}{m}\sum^{n_x}_{j=1}\left|w\right| \]
如果用的是 \(L1\) 正则化，\(w\) 最终会是稀疏的，也就是说 \(w\) 向量中有很多 0。有人说这样有利于压缩模型，因为集合中的参数均为 0，存储模型所占用的内存更少。实际上，虽然 \(L1\) 正则化使模型变得稀疏，却没有降低太多存储内存，所以吴恩达老师认为这并不是 \(L1\) 正则化的目的，至少不是为了压缩模型。所以人们在训练网络时，越来越倾向于使用 \(L2\) 正则化。

在神经网络中实现 \(L2\) 正则化

神经网络含有一个代价函数，该函数包含 \(W^{[1]},b^{[1]}\) 到 \(W^{[L]},b^{[L]}\) 所有参数，其中 \(l\) 表示的是神经网络的层数，\(L\) 为神经网络的总层数。那么，代价函数等于 \(m\) 个训练样本损失函数的均值，正则项为 \(\frac{\lambda}{2m}\sum^L_{l=1}{\left\|W^{[l]}\right\|^2}\)。这个矩阵范数 \(\left\|W^{[l]}\right\|^2\)（即平方范数），被定义为矩阵中所有元素的平方求和，我们称之为“弗罗贝尼乌斯范数 (Frobenius norm)”。
\[ J(W^{[1]},b^{[1]},\dots,W^{[L]},b^{[L]})=\frac{1}{m} \sum^m_{i=1}{L(\hat{y}^{(i)},y^{(i)})}+\frac{\lambda}{2m}\sum^L_{l=1}\left\|W^{[l]}\right\|^2_F\\ \left\|W^{[l]}\right\|^2_F=\sum^{n^{[l-1]}}_{i=1}\sum^{n^{[l]}}_{j=1}(W^{[l]}_{ij})^2 \]
使用弗罗贝尼乌斯范数实现梯度下降

在没有使用弗罗贝尼乌斯范数时，我们是用反向传播计算出 \(dW\) 的值，然后使用它来更新参数 \(W\)。
\[ dW^{[l]}=(from \ backprop)\\ W^{[l]}:=W^{[l]}-\alpha dW^{[l]} \]
既然已经增加了正则项，那么我们需要给 \(dW\) 加上一项 \(\frac{\lambda}{m}W^{[l]}\)。然后更新参数。
\[ dW^{[l]}=(from \ backprop)+\frac{\lambda}{m}W^{[l]}\\ W^{[l]}:=W^{[l]}-\alpha dW^{[l]} \]
我们对上面的公式进行一下数学变换。
\[ W^{[l]}:=W^{[l]}-\alpha ((from \ backprop)+\frac{\lambda}{m}W^{[l]})\\ =W^{[l]}-\frac{\alpha \lambda}{m}W^{[l]}-\alpha(from \ backprop)\\ =(1-\frac{\alpha \lambda}{m})W^{[l]}-\alpha(from \ backprop) \]
我们发现 \((1-\frac{\alpha \lambda}{m})\) 这个系数时小于 1 的，所以不论 \(W^{[l]}\) 是什么，我们都试图让它变得更小。所以，\(L2\) 范数正则化也被称为“权重衰减”。

为什么正则化有利于预防过拟合？

直观理解就是正则化参数 \(\lambda\) 增加到足够大，参数 \(W\) 会接近于 0（实际上是不会发生这种情况的）。我们尝试消除或至少减少许多隐藏单元的影响，最终这个网络会变得更简单，这个神经网络越来越接近逻辑回归，也就是从过拟合状态不断接近高偏差状态。但是，\(\lambda\) 会存在一个中间值，于是会有一个接近“Just Right”的中间状态。

而从图形上来看的话，假设我们用的是 tanh 双曲线激活函数。用 \(g(z)\) 表示 \(tanh(z)\)。如果正则化参数 \(\lambda\) 很大，参数 \(W\) 会相对较小，而由于 \(Z^{[l]}=W^{[l]}a^{[l-1]}+b^{[l]}\)，所以 \(z\) 也会很小。特别地，如果 \(z\) 的值最终在红色区域这个范围内，都是相对较小的值，\(g(z)\) 大致呈线性。而我们之前说过，如果每层都是线性的，那么整个网络就是一个线性网络，即使是一个非常深的深层网络，因具有线性激活函数的特征，最终我们只能计算线性函数，因此，它不适用于非常复杂的决策，以及过度拟合数据集的非线性决策边界。

Dropout 正则化

除了 \(L2\) 正则化，还有一个非常实用的正则化方法——“Dropout（随机失活）”。

Dropout 正则化的作用原理

假设我们在训练下图这样的神经网络，它存在过拟合。

我们复制这个神经网络，dropout 会遍历网络的每一层，并设置消除神经网络中节点的概率（假设为 0.5）。于是一些节点会被消除，最后我们得到一个节点更少，规模更小的网络，然后用反向传播方法进行训练。

在神经网络中实现 Dropout 正则化

实现 dropout 的最常用的方法是 inverted dropout（反向随机失活）。

我们用神经网络的第三层来举例说明。

首先要定义向量 \(d\)，\(d^{[3]}\) 表示网络第三层的 dropout 向量：

d3 = np.random.rand(a3.shape[0],a3.shape[1])

然后看它是否小于某数，我们称之为 keep-prob，它是一个具体的数字。在上面的图里面，它被设为 0.5，现在我们把它设为 0.8。它表示保留某个隐藏单元的概率，即消除任意一个隐藏单元的概率是 0.2。

接下来要做的就是从第三层中获取激活函数，这里我们叫它 \(a^{[3]}\)，\(a^{[3]}\) 含有要计算的激活函数。这个 \(a^{[3]}\) 就等于没有 dropout 的 \(a^{[3]}\) 乘以 \(d^{[3]}\)，a3 = np.multiply(a3,d3)，这里是元素相乘。它的作用就是让 \(d^{[3]}\) 中 0 元素与 \(a^{[3]}\) 中相对元素归零。

顺便一提，如果用 python 实现这个算法的话，我们的 \(d^{[3]}\) 其实是一个布尔型数组，值为 true 和 false，而不是 1 和 0。

由于 \(z^{[4]}=w^{[4]}a^{[3]}+b^{[4]}\)，而 \(a^{[3]}\) 被随机减少了 20%。为了不影响 \(z^{[4]}\) 的期望值，我们需要用 \(\frac{w^{[4]}a^{[3]}}{0.8}\) 来修正被随机减少的那 20%。我们在测试阶段是不使用 dropout 函数的，它会使我们的输出结果随机。

当然，我们可以在网络的不同层使用不同的 keep-prob 值进行不同程度的 dropout。如下图所示。注意 keep-prob 的值为 1 表示的是保留所有单元，不在这一层使用 dropout。

dropout 一大缺点就是代价函数 \(J\) 不再被明确定义，每次迭代，都会随机移除一些节点，如果再三检查梯度下降的性能，实际上是很难进行复查的。定义明确的代价函数 \(J\) 每次迭代后都会下降，因为我们所优化的代价函数 \(J\) 实际上并没有明确定义，或者说在某种程度上很难计算，所以我们失去了调试工具来绘制迭代曲线。
吴恩达老师的做法是，关闭 dropout 函数，将 keep-prob 设为 1，运行代码，确保代价函数单调递减。然后再打开 dropout 函数。

理解 Dropout

Dropout 随机删除网络中的神经单元，看起来很奇怪的操作却能实现正则化。

直观上理解，dropout 使得网络不依赖于任何一个特征，因为该单元的输入可能随时被清除，因此该单元通过这种方式传播下去，并为单元的四个输入增加一点权重，通过传播所有权重，dropout 将产生收缩权重的平方范数的效果。

"Can't rely on any one feature, so have to spread out weights."

其他正则化方法

数据扩增 (Data augmentation)

我们可以通过扩增训练数据来解决过拟合，但扩增数据代价高，而且有时候是无法扩增数据的。那么可以通过水平翻转图片、随意裁剪图片等方法来扩增数据，这虽然不如额外收集一组新图片那么好，但这样节省了很高的数据收集成本。

early stopping

运行梯度下降时，我们可以绘制训练误差，或只绘制代价函数 \(J\) 的优化过程，在训练集上用 0-1 记录分类误差次数。

因为在训练过程中，我们希望训练误差，代价函数 \(J\) 都在下降，通过 early stopping，我们不但可以绘制上面这些内容，还可以绘制验证集误差，它可以是验证集上的分类误差，或验证集上的代价函数，逻辑损失和对数损失等。我们发现，验证集误差通常会先呈下降趋势，然后在某个节点处开始上升。而 early stopping 的作用是，在神经网络已经在迭代过程中表现得很好的时候停止训练。

当我们还未在神经网络上运行太多迭代过程的时候，参数 \(w\) 接近 0，因为随机初始化 \(w\) 值时，它的值可能都是较小的随机值，所以在长期训练神经网络之前 \(w\) 依然很小，在迭代过程和训练过程中 \(w\) 的值会变得越来越大，所以 early stopping 要做就是在中间点停止迭代过程，我们得到一个 \(w\) 值中等大小的弗罗贝尼乌斯范数，与\(L2\)正则化相似，选择参数 \(w\) 范数较小的神经网络。

early stopping 的主要缺点就是我们不能独立地处理这两个问题，因为提早停止梯度下降，也就是停止了优化代价函数 \(J\)，因为现在不再尝试降低代价函数 \(J\)，所以代价函数 \(J\) 的值可能不够小，同时我们又希望不出现过拟合，没有采取不同的方式来解决这两个问题，而是用一种方法同时解决两个问题，这样做的结果是我们要考虑的东西变得更复杂。

early stopping 的优点是，只运行一次梯度下降，就可以找出 \(w\) 的较小值，中间值和较大值，而无需尝试 \(L2\) 正则化超参数 \(\lambda\) 的很多值。

归一化输入 (Normalizing inputs)

训练神经网络，其中一个加速训练的方法就是归一化输入。

假设一个训练集有两个特征，输入特征为 2 维，归一化需要两个步骤：（1）零均值化；（2）归一化方差。

（1）零均值化

\(\mu = \frac{1}{m}\sum_{i =1}^{m}x^{(i)}\)，它是一个向量，\(x\) 等于每个训练数据 \(x\) 减去 \(\mu\)，意思是移动训练集，直到它完成零均值化。

（2）归一化方差

注意特征 \(x_{1}\) 的方差比特征 \(x_{2}\) 的方差要大得多，我们要做的是给 \(\sigma\) 赋值，\(\sigma^{2}= \frac{1}{m}\sum_{i =1}^{m}{({x^{(i)})}^{2}}\)，这是节点 \(y\) 的平方，\(\sigma^{2}\) 是一个向量，它的每个特征都有方差，注意，我们已经完成零值均化，\(({x^{(i)})}^{2}\) 元素 \(y^{2}\) 就是方差，我们把所有数据除以向量 \(\sigma^{2}\)，最后变成上图形式。

如果你用它来调整训练数据，那么用相同的 \(μ\) 和 \(\sigma^{2}\) 来归一化测试集。

如果我们使用非归一化的输入特征，代价函数会非常细长狭窄，这样我们必须使用一个非常小的学习率，进行多次迭代，来找到最小值。而归一化特征之后，代价函数会更对称，是一个更圆的球形轮廓。那么不论从哪个位置开始，可以使用较大步长，梯度下降法都能够更直接地找到最小值。

所以如果输入特征处于不同范围内，可能有些特征值从 0 到 1，有些从 1 到 1000，那么归一化特征值就非常重要了。如果特征值处于相似范围内，那么归一化就不是很重要了。

梯度消失/梯度爆炸 (Vanishing / Exploding gradients)

训练神经网络，尤其是深度神经所面临的一个问题就是梯度消失或梯度爆炸，也就是训练神经网络的时候，导数或坡度有时会变得非常大，或者非常小，甚至于以指数方式变小，这加大了训练的难度。

对于下图这个很深的神经网络（为了简便，我们只画出两个隐藏单元，实际可以有很多）。

为了简单起见，假设我们使用激活函数 \(g(z)=z\)，也就是线性激活函数，我们忽略 \(b\)，假设 \(b^{[l]}\)=0，如果那样的话，输出 \(y=W^{[L]}W^{[L -1]}W^{[L - 2]}\ldots W^{[3]}W^{[2]}W^{[1]}x\)。其实我们得到的输出结果是 \(\hat{y}\) 而不是 \(y\)。

接着，假设每个权重矩阵 \(W^{[l]}=\begin{bmatrix} 1.5 & 0 \\0 & 1.5 \\\end{bmatrix}\)，最后一项有不同的维度，也就是 \(y= W^{[L]}\begin{bmatrix} 1.5 & 0 \\ 0 & 1.5 \\\end{bmatrix}^{(L -1)}x\)。但是我们假设所有的矩阵都等于 1.5 倍的单位矩阵，那么最后的计算结果 \(\hat{y}=1.5^Lx\)。所以，对于一个深度神经网络来说 \(L\) 值较大，那么 \(\hat{y}\) 的值也会非常大，实际上它是呈指数级增长的。

而如果权重是 0.5 倍的单位矩阵，即 \(W^{[l]} = \begin{bmatrix} 0.5& 0 \\ 0 & 0.5 \\ \end{bmatrix}\)，那么 \(\hat{y}=0.5^Lx\)。激活函数的值将以指数级下降。

权重初始化

先以单个神经元的情况举例。

单个神经元可能有 4 个输入特征，从 \(x_1\) 到 \(x_4\)，经过 \(a=g(z)\) 处理，最终得到 \(\hat{y}\)。这些输入表示为 \(a^{[l]}\)，暂时我们用 \(x\) 表示。

我们把 \(b\) 设为 0，那么 \(z=w_1x_1+w_2x_2+\dots+w_nx_n\)。可以发现，\(n\) 越大，即输入特征数越多，\(z\) 的值就越大。为了预防 \(z\) 值过大或过小，我们希望每项值更小，合理的方法是设置 \(w_i=\frac{1}{n}\)。

实际上，我们设置每层权重矩阵如下
\[ w^{[l]}=np.random.randn(shape)*np.sqrt(\frac{1}{n^{[l-1]}}) \]
如果用的是 Relu 激活函数，方差设置为 \(\frac{2}{n}\)，效果会更好。

如果激活函数的输入特征被零均值和标准方差化，方差是 1，\(z\) 也会调整到相似范围，这就没有解决梯度消失和梯度爆炸问题。但它却是降低了这些问题，因为它给权重矩阵 \(w\) 设置了合理值，它不会比 1 大很多，也不会比 1 小很多，所以梯度没有爆炸或消失过快。

一篇由 Herd 等人撰写的论文曾介绍过。对于几个其它变体函数，如 tanh 激活函数，有篇论文提到，常量 1 比常量 2 的效率更高，对于 tanh 函数来说，它是\(\sqrt{\frac{1}{n^{[l-1]}}}\)，它适用于 tanh 激活函数，被称为Xavier初始化。Yoshua Bengio 和他的同事还提出另一种方法，他们使用的是公式\(\sqrt{\frac{2}{n^{[l-1]} + n^{\left[l\right]}}}\)。

优化算法 (Optimization algorithms)

机器学习的应用是一个高度依赖经验的过程，伴随着大量的迭代的过程，我们需要训练诸多模型。而优化算法能够帮助我们快速训练模型。

Mini-batch 梯度下降 (Mini-batch gradient descent)

我们之前使用向量化能够让我们有效地对所有 \(m\) 个样本进行计算，只需把所有的训练样本放大巨大的矩阵 \(X\) 中去，\(X=[x^{(1)} x^{(2)} \dots x^{(m)}]\)。同理，\(Y\) 也是这样。但是如果 \(m\) 很大的话，处理速度仍然会很慢。我们必须处理整个训练集，才能迭代一次梯度下降。

那么我们可以把训练集分割为小一点的子集训练，这些子集被取名为 mini-batch。假设每个子集中只有 1000 个样本，那么把其中的 \(x^{(1)}\) 到 \(x^{(1000)}\) 取出来，将其称为第一个子训练集。然后接着取 \(x^{(1001)}\) 到 \(x^{(2000)}\)，以此类推。我们把它们记为 \(X^{\{1\}}, X^{\{2\}},\dots\)。如果训练样本一共有 500 万个，每个 mini-batch 都有 1000 个样本，那么我们就有 5000 个 mini-batch，最后得到的是 \(X^{\{5000\}}\)。同样，\(Y\) 也进行这样的处理。从 \(Y^{\{1\}}\) 到 \(Y^{\{5000\}}\)。

Mini-batch 梯度下降与我们之前用的梯度下降算法不一样的是，我们每次处理的只是单个 mini-batch \(X^{\{t\}}\) 和 \(Y^{\{t\}}\)，而不是同时处理全部的 \(X\) 和 \(Y\)。伪代码如下图。

需要注意的是，上图的代码只是进行了“一代 (1 epoch)”的训练，也就是只是一次遍历了训练集。

理解 mini-batch 梯度下降法

使用 batch 梯度下降法，每次迭代都需要遍历整个训练集，可以预期每次迭代成本都会下降，所以如果代价函数 \(J\) 在某次迭代中增加了，那肯定出 bug 了，可能是由于学习率太大了。

而使用 mini-batch 梯度下降法，我们会发现代价函数 \(J\) 并不是每次迭代都是下降的。那是因为代价函数 \(J^{\{t\}}\) 只和 \(X^{\{t\}},Y^{\{t\}}\) 有关，也就是说每次迭代我们都在训练不同的样本集（不同的 mini-batch）。所以 \(J^{\{t\}}\) 的图像是总体趋势朝下，但是有很多噪声。

对于 mini-batch 梯度下降法来说，我们需要决定的变量之一就是 mini-batch 的大小。

极端情况下，它可以等于训练集的大小，其实就是 batch 梯度下降法。但是它的弊端在于，样本数量巨大的时候，单次迭代耗时太长。如果训练样本不大， batch 梯度下降法运行地很好。

另一种极端情况下，它可以等于 1，也叫作随机梯度下降法。每个样本都是独立的 mini-batch，每次迭代我们都只处理一个样本。随机梯度下降法是有很多噪声的，平均来看，它最终会靠近最小值，不过有时候也会方向错误，因为随机梯度下降法永远不会收敛，而是会一直在最小值附近波动，但它并不会在达到最小值并停留在此。随机梯度下降法的一大缺点是，我们会失去所有向量化带给我们的加速，效率会过于低下。

所以 mini-batch 的大小应该取 1 到 \(m\) 之间的值。如果训练集较小（< 2000)，直接使用 batch 梯度下降法，否则使用 mini-batch。一般 mini-batch 大小为 64 到 512，考虑到电脑内存设置和使用的方式，如果 mini-batch 大小是 2 的 n 次方，代码会运行地快一些。

指数加权平均 (Exponentially weighted averages)

在统计中也叫指数加权移动平均。以伦敦的气温为例。

散点看起来有些杂乱，如果要计算趋势的话，也就是温度的局部平均值，或者说移动平均值。我们要做的是，首先使 \(v_0=0\)，每天使用 0.9 倍的之前的加权数加上当日温度的 0.1 倍。即 \(v_1=0.9v_0+0.1\theta_1\)，得到第一天的温度值。以此类推。

这样，我们得到图中红色的曲线。

把 0.9 这个常数泛化为变量 \(\beta\)，那么之前的 0.1 则为 \((1-\beta)\)，即 \(v_t=\beta v_{t-1}+（1-\beta)\theta_t\)。在计算时，\(v_t\) 可以看作是 \(\frac{1}{1-\beta}\) 的每日温度。如果 \(\beta\) 是 0.9，这是十天的平均值。而如果 \(\beta\) 为 0.98，\(\frac{1}{1-0.98}=50\)，那么可以看作是过去 50 天的温度，这时，我们就可以得到下图中绿色的曲线。

指数加权平均公式在温度变化时，适应地更缓慢一些，所以会出现一定延迟，因为当 \(\beta=0.98\)，相当于给前一天的值加了太多权重，只有 0.02 的权重给了当日的值，所以温度变化时，温度上下起伏，当 \(\beta\) 较大时，指数加权平均值适应地更缓慢一些。

我们可以再换一个值试一试，如果 \(\beta\) 是另一个极端值，比如说 0.5，\(\frac{1}{1-0.5}=2\)，这是平均了两天的温度。作图运行后得到黄色的曲线。

由于仅平均了两天的温度，平均的数据太少，所以得到的曲线有更多的噪声，有可能出现异常值，但是这个曲线能够更快适应温度变化。

理解指数加权平均

其实核心公式就是
\[ v_t=\beta v_{t-1}+(1-\beta)\theta_t \]
现在我们使 \(\beta\) 等于 0.9，把每个公式具体写出来，倒着写。
\[ v_{100}=0.9v_{99}+0.1\theta_{100}\\ v_{99}=0.9v_{98}+0.1\theta_{99}\\ v_{98}=0.9v_{97}+0.1\theta_{98}\\ \dots \dots \]
那么 \(v_{100}\) 其实可以写作下面这个形式
\[ v_{100} = 0.1\theta_{100} + 0.1 \times 0.9 \theta_{99} + 0.1 \times {(0.9)}^{2}\theta_{98} + 0.1 \times {(0.9)}^{3}\theta_{97} + 0.1 \times {(0.9)}^{4}\theta_{96} + \dots \]
假设我们有一些日期的温度，所以这是数据，\(t\) 为 100，99，98 等等，这就是数日的温度数值。

然后我们构建一个指数衰减函数，从 0.1 开始，到 \(0.1 \times 0.9\)，到 \(0.1 \times {(0.9)}^{2}\)，以此类推，所以就有了这个指数衰减函数。

计算 \(v_{100}\) 是通过把每日温度与指数衰减函数相乘，然后求和。

所有的这些系数（\((0.1 \times 0.1) \times (0.9 \times 0.1) \times ({(0.9)}^{2} \times 0.1)) \times ({(0.9)}^{3}\times 0.1) \times \dots\)），相加起来为 1 或者逼近 1，我们称之为偏差修正。

我们如果实际运行 \(\beta=0.98\)，得到的其实不是下图中的绿色曲线而是紫色曲线。而紫色曲线起点较低。

计算移动平均数的时候，初始化 \(v_{0} = 0\)，\(v_{1} = 0.98v_{0} +0.02\theta_{1}\)，但是 \(v_{0} =0\)，所以这部分没有了（\(0.98v_{0}\)），所以 \(v_{1} =0.02\theta_{1}\)，所以如果一天温度是 40 华氏度，那么 \(v_{1} = 0.02\theta_{1} =0.02 \times 40 = 8\)，因此得到的值会小很多，所以第一天温度的估测不准。同理，第二天也会出现估测不准的情况。

有个办法可以修改这一估测，让估测变得更好，更准确，特别是在估测初期，也就是不用 \(v_{t}\)，而是用 \(\frac{v_{t}}{1- \beta^{t}}\)。

举个具体例子，当 \(t=2\) 时，\(1 - \beta^{t} = 1 - {0.98}^{2} = 0.0396\)，因此对第二天温度的估测变成了 \(\frac{v_{2}}{0.0396} =\frac{0.0196\theta_{1} + 0.02\theta_{2}}{0.0396}\)，也就是 \(\theta_{1}\) 和 \(\theta_{2}\) 的加权平均数，并去除了偏差。随着 \(t\) 增加，\(\beta^{t}\) 接近于 0，所以当 \(t\) 很大的时候，偏差修正几乎没有作用，因此当 \(t\) 较大的时候，紫线基本和绿线重合了。

动量梯度下降法 (Gradient descent with Momentum)

动量梯度下降法运行速度几乎总是快于标准的梯度下降算法，简而言之，基本的想法就是计算梯度的指数加权平均数，并利用该梯度更新权重。

假如我们要优化下图所示的代价函数，红点表示最小值的位置。而我们从蓝色点开始梯度下降，无论是 batch 还是 mini-batch，一步一步迭代才会慢慢摆动到最小值。这种上下波动减慢了梯度下降法的速度，而如果使用较大的学习率（紫色箭头），结果可能会偏离函数的范围，为了避免摆动过大，我们要用一个较小的学习率。

使用动量梯度下降法，我们可以在纵轴上，学习慢一点，因为我们不想要这些摆动；而在横轴上，加快学习，快速移向最小值。

我们需要做的是，在每次迭代即第 \(t\) 次迭代的过程中，计算微分 \(dW,db\) 的移动平均数。也就是
\[ v_{dW}=\beta v_{dW}+(1-\beta)dW\\ v_{db}=\beta v_{db}+(1-\beta)db \]
然后重新赋值权重
\[ W:=W-\alpha v_{dW}\\ b:=b-\alpha v_{db} \]
这样平均过程中，纵轴上正负数相互抵消，平均值接近于 0。而横轴上，所有的微分都指向横轴方向，因此横轴方向的平均值仍然较大。

我们一般 \(\beta\) 为 0.9 可以达到不错的效果，当然也可以尝试不同的值。实际中，在使用梯度下降法或动量梯度下降法时，人们不会受到偏差修正的困扰。

RMSprop

RMSprop 算法的全称为 root mean square prop 算法，它也可以加速梯度下降。

还是上面那个例子。我们假设纵轴代表参数 \(b\)，横轴代表参数 \(W\)，可能有 \(W_1,W_2\) 或者其他重要的参数，为了便于理解，被称为 \(b\) 和 \(W\)。

在第 \(t\) 次迭代中，该算法会照常计算当下 mini-batch 的微分 \(dW,db\)，保留指数加权平均数，但是用新符号 \(S_{dW}\) 而不是 \(v_{dW}\)，因此 \(S_{dW}=\beta S_{dW}+(1-\beta)dW^2\)，其中平方是对于整个符号进行平方的。同样地，\(S_{db}=\beta S_{db}+（1-\beta)db^2\)。

接着，仍然是更新参数
\[ W:=W-\alpha \frac{dW}{\sqrt{S_{dW}}}\\ b:=b-\alpha \frac{db}{\sqrt{S_{db}}} \]
我们来理解一下其原理。记得在横轴方向或者在例子中的 \(W\) 方向，我们希望学习速度快，而在垂直方向，也就是例子中的 \(b\) 方向，我们希望减缓纵轴上的摆动，所以有了 \(S_{dW}\) 和 \(S_{db}\)，我们希望 \(S_{dW}\) 会相对较小，所以我们要除以一个较小的数，而希望 \(S_{db}\) 又较大，所以这里我们要除以较大的数字，这样就可以减缓纵轴上的变化。你看这些微分，垂直方向的要比水平方向的大得多，所以斜率在 \(b\) 方向特别大，所以这些微分中，\(db\) 较大，\(dW\) 较小，因为函数的倾斜程度，在纵轴上，也就是 b 方向上要大于在横轴上，也就是 \(W\) 方向上。\(db\) 的平方较大，所以 \(S_{db}\) 也会较大，而相比之下，\(dW\) 会小一些，亦或 \(dW\) 平方会小一些，因此 \(S_{dW}\) 会小一些，结果就是纵轴上的更新要被一个较大的数相除，就能消除摆动，而水平方向的更新则被较小的数相除。

Adam 优化算法

Adam 优化算法基本上就是将 Momentum 和 RMSprop 结合在一起。Adam代表的是Adaptive Moment Estimation。

使用 Adam 算法，首先我们初始化各项参数，\(v_{dW} = 0\)，\(S_{dW} =0\)，\(v_{db} = 0\)，\(S_{db} =0\)，在第 \(t\) 次迭代中，计算微分 \(dW,db\)，一般我们会用 mini-batch 梯度下降法。

接下来计算 Momentum 指数加权平均数，这里我们为了不混淆两个算法中的参数，Momentum 中使用 \(\beta_1\)，RMSprop 中使用 \(\beta_2\)。即
\[ v_{dW}= \beta_{1}v_{dW} + ( 1 - \beta_{1})dW\\ v_{db}= \beta_{1}v_{db} + ( 1 - \beta_{1})db \]
然后，使用 RMSprop 进行更新，即
\[ S_{dW}=\beta_2 S_{dW}+(1-\beta_2)(dW)^2\\ S_{db}=\beta_2 S_{db}+(1-\beta_2)(db)^2 \]
一般使用 Adam 算法的时候，要计算偏差修正，即
\[ v_{dW}^{corrected}=\frac{v_{dW}}{1-\beta_1^t}\\ v_{db}^{corrected}=\frac{v_{db}}{1-\beta_1^t}\\ S_{dW}^{corrected}=\frac{S_{dW}}{1-\beta_1^t}\\ S_{db}^{corrected}=\frac{S_{db}}{1-\beta_1^t} \]
最后，更新权重。由于我们要确保我们的算法不会除以 0，而如果 \(S_dW\) 的平方根趋近于 0 的话，就会导致我们的结果非常大。为了确保数值稳定，在实际操作中，我们要在分母上加上一个很小很小的 \(\epsilon\)，一般我们设为 \(10^{-8}\)。即
\[ W:=W-\frac{\alpha v_{dW}^{corrected}}{\sqrt{S_{dW}^{corrected}}+\epsilon}\\ b:=b-\frac{\alpha v_{db}^{corrected}}{\sqrt{S_{db}^{corrected}}+\epsilon} \]
所以 Adam 算法结合了两个算法，是一种极其常用的学习算法，被证明能有效适用于不同神经网络，适用于广泛的结构。

关于这个算法，它其实有很多超参数。

学习率 \(\alpha\) 很重要，经常需要调试。\(\beta_1\) 常用的缺省值为 0.9。\(\beta_2\) 的值，Adam 的作者推荐使用 0.999；而 \(\epsilon\) 一般也建议使用 \(10^{-8}\)。

学习率衰减 (Learning rate decay)

加快学习算法的一个办法就是随时间慢慢减少学习率，我们将之称为学习率衰减。

假设我们使用 mini-batch 梯度下降法，mini-batch 的数量不大，在迭代过程中会有噪音（下图中蓝色的线），下降朝向最小值。但是不会精确地收敛，所以算法最后在附近摆动，因为我们用的 \(\alpha\) 是固定值，不同的 mini-batch 中有噪音。

但是如果我们慢慢减小学习率 \(\alpha\) 的话，在初期的时候，学习率还较大，学习还是相对较快；随着学习率变小，学习的步伐也会变慢变小，最后曲线会在最小值附近的一小块区域里摆动（上图中绿色的线），而不是在训练过程中，大幅度在最小值附近摆动。

具体做法可以这样实现。我们将学习率 \(\alpha\) 设为 \(\alpha=\frac{1}{1+decay\_rate*epoch\_num}\alpha_0\)，其中 decay_rate 为衰减率，epoch_num 为迭代代数，\(\alpha_0\) 为初始学习率。衰减率 decay_rate 其实是一个我们需要调整的超参数。

当然，还有其他人们会用的公式。如下。
\[ \alpha=0.95^{epoch\_num}\alpha_0\\ \alpha=\frac{k}{\sqrt{epoch\_num}}\alpha_0\\ \alpha=\frac{k}{\sqrt{t}}\alpha_0 \]
有时也会用一个离散下降的学习率，也就是某个步骤有某个学习率，一会之后，学习率减少了一半，一会儿减少一半，一会儿又一半，这就是离散下降（discrete stair cease）的意思。还有时候，人们也会手动控制 \(\alpha\)，但这只有模型数量小的时候有用。

Batch 归一化 (Batch Norm)

Batch 归一化算法由 Sergey Loffe 和 Christian Szegedy 创造，简称为 BN，它会使参数搜索问题变得很容易，使神经网络对超参数的选择更加稳定，超参数的范围会更加庞大，工作效果也更好。

当训练一个模型时，我们曾经使用过归一化输入特征加快学习过程。而对于更深的模型，我们不禁有输入特征值 \(x\)，还有各个层的激活值 \(a^{[1]},a^{[2]}\) 等等。那么归一化这些激活值也会使我们的训练更有效率。严格来说，Batch 归一化的不是激活值 \(a^{[l]}\) 而是 \(z^{[l]}\)。

现在我们以第 \(l\) 层的归一化为例，在符号中省略上标 \(^{[l]}\)。于是我们有这一层隐藏单元的值，从 \(z^{(1)}\) 到 \(z^{(m)}\)，于是我们用下面的公式使每个 \(z^{(i)}\) 值规范化。为了使数值稳定，通常会在分母中加上 \(\epsilon\)，以防 \(\sigma=0\)。
\[ \mu=\frac{1}{m}\sum_{i=1}^mz^{(i)}\\ \sigma^2=\frac{1}{m}\sum_{i=1}^m(z^{(i)}-\mu)\\ z^{(i)}_{norm}=\frac{z^{(i)}-\mu}{\sqrt{\sigma^2+\epsilon}} \]
这样我们就把这些 \(z\) 值标准化，化为含平均值 0 和标准单位方差。但是我们不想让隐藏单元总是含有平均值 0 和方差 1，也许隐藏单元有了不同的分布会有意义，所以我们还要计算一个变量 \({\tilde{z}}^{(i)}= \gamma z_{\text{norm}}^{(i)} +\beta\)。其中 \(\gamma\) 和 \(\beta\) 是我们需要学习的参数（这里的 \(\beta\) 与 Adam 等优化算法中的参数 \(\beta\) 不是同一个），正如更新权重一样，使用梯度下降或者优化算法，我们也会更新这两个参数。

通过赋予 \(\gamma\) 和 \(\beta\) 其他值，我们可以构造含其他平均值和方差的隐藏单元值。如果 \(\gamma=\sqrt{\sigma^2+\epsilon}\)，\(\beta=\mu\)，那么\(\tilde{z}^{(i)}=z^{(i)}\)。

一般来说，如果使用深度学习编程框架，一般一行代码就能实现 BN。比如在 TensorFlow 框架中，我们可以用函数 tf.nn.batch_normalization 来实现。

Softmax 回归

如果我们要进行多类型的预测的话，我们就需要用到 softmax 回归。

以下面这个例子进行说明。

于是为了分出上图中的四类，我们将建立一个神经网络，其输出层有 4 个或者说 \(C\) 个输出单元。

我们想要的是，输出层单元的数字告诉我们这 4 种类型中每个的概率有多大，因此这里的 \(\hat{y}\) 将是一个 \(4\times1\) 维向量，而且输出的四个数字加起来应该等于 1。

在神经网络的最后一层，我们将会像往常一样计算各层的线性部分，也就是 \(z^{[L]}=W^{[L]}a^{[L-1]}+b^{[L]}\)。然后我们应用 softmax 激活函数。首先，计算一个临时变量 \(t\)，它等于 \(e^{z^{[L]}}\)，也就是对所有元素求幂，然后对这个变量 \(t\) 进行归一化来输出 \(a^{[L]}\)，也就是 \(a^{[L]}=\frac{t}{\sum_{i=1}^Ct_i}\)。

以一个具体的例子来说，就是，假如我们算出的 \(z^{[L]}\) 的值如下，那么计算过程也就如下所示。
\[ z^{[L]}= \begin{bmatrix} 5 \\ 2 \\ - 1 \\ 3 \\ \end{bmatrix}\\ t =e^{z^{[L]}}=\begin{bmatrix} e^{5} \\ e^{2} \\ e^{- 1} \\ e^{3} \\ \end{bmatrix}=\begin{bmatrix} 148.4 \\ 7.4 \\ 0.4 \\ 20.1 \\ \end{bmatrix}\\ a^{[L]}=\frac{t}{\sum_{i=1}^4t_i}=\begin{bmatrix} 0.842 \\ 0.042 \\ 0.002 \\ 0.114 \\ \end{bmatrix} \]
softmax 这个名词的来源是与所谓 hardmax 对比而来的。hardmax 会把向量 \(z\) 变成 \(\begin{bmatrix} 1 \\ 0 \\ 0 \\ 0 \\ \end{bmatrix}\) 这种形式的向量。

假如说对于某个样本的目标输出，真实标签是 \(\begin{bmatrix} 0 \\ 1 \\ 0 \\ 0 \\ \end{bmatrix}\)，但是输出的 \(\hat{y}=\begin{bmatrix} 0.3 \\ 0.2\\0.1\\0.4\end{bmatrix}\)。说明这个样本，神经网络的表现不佳。在 softmax 分类中，一般用到的损失函数是 \(L(\hat{y},y)=-\sum_{j=1}^Cy_j\log{\hat{y}_j}\)。用刚刚说的具体的数据代入的话，如下所示
\[ L(\hat{y},y)=-\sum_{j=1}^4y_j\log{\hat{y}_j}=-y_2\log{\hat{y}_2}=-\log{\hat{y}_2} \]
而我们试图不断使这个损失函数变小，也就需要使 \(\hat{y}_2\) 尽可能大。

对于整个训练集的代价函数 \(J\) 来说，仍然是每个样本的损失的均值。
\[ J(W^{[1]},b^{[1]},\dots)=\frac{1}{m}\sum_{i=1}^mL(\hat{y}^{(i)},y^{(i)}) \]

References

[1] Coursera深度学习教程中文笔记

[2] 深度学习 500 问

《Improving Deep Neural Networks:Hyperparameter tuning, Regularization and Optimization》课堂笔记