机器学习32:对Resnet几个问题的理解

Resnet对传统网络的改进：加入Shortcut连接，改善了深层网络的网络退化问题，使网络模型可以训练到很深层等已经是老生常谈了，也训练过Resnet模型有效地分类了Cifar数据集，但是对于Resnet始终存有几个疑问。

首先第一个问题是为什么=x较=0拟合难度大；第二个问题是如果残差模块的训练目标是恒等映射，那么网络性能在不退化的情况下是如何提升的？为什么要加入恒等映射的单元？第三个问题是如何解释残差网络的有效性。

带着这些问题主要在知乎/博客和慕课上查找了一些资料，对于这些问题不同的答主也有不同的理解方式，这里摘抄整理了一些我觉得有说服力的解释，基本可以解释我对于这些问题的疑问。

1.传统网络和残差网络的比对：

网络输入：x

网络输出：

网络要拟合的目标

传统网络的训练目标：=

残差网络的训练目标：=-x

残差网络的输出为：=传统输出+x

2.模型退化的原因：

（1）第一个解释：

当堆叠模型时，理所当然会认为效果是堆叠层数越高越好，然而事实上由于非线性激活函数Relu的存在，每次输入到输出的过程都几乎是不可逆的（信息损失），很难从输出反推回完整的输入。

“什么都不做”的恒等变换恰好是当前神经网络最难做到的东西之一。因此，可以认为Resnet模块的初衷，其实是让模型的内部结构至少有恒等映射的能力。以保证在堆叠网络的过程中，网络至少不会因为继续堆叠而产生退化。

（2）第二个解释：

神经网络越来越深的时候，反传回来的梯度之间的相关性会越来越差，最后接近白噪声。

因为图像是具备局部相关性的，那其实可以认为梯度也应该具备类似的相关性，这样更新的梯度才有意义，如果梯度接近白噪声，那梯度更新可能根本就是在做随机扰动。

有了梯度相关性这个指标之后，分析一系列的结构和激活函数可以发现Resnet在保持梯度相关性方面很优秀。

这一点很好理解，从梯度流来看，有一路梯度是保持原样不动地往回传，这部分的相关性是非常强的。

3.为什么残差模块的输出为传统输出+x：

（1）第一种解释：

因为多余层的目标是恒等变换，也就是+x=x，那么的训练目标就是0，比较容易；如果是其他比如+x=x/2，那么的训练目标就是x/2，是一个非0的值，比0难实现。

（2）第二种解释：

残差的作用类似于差分放大器，去掉相同的主体部分，从而突出微小的变化。

如果F(5)=5.1 ,现在继续训练模型，使得映射函数F(5)=5。(5.1-5)/5.1=2%，也许浅层网路可以把学习率从0.01设置为0.0000001可以处理，深层的话可能就不太好用了。

如果设计为残差结构，5.1变化为5，也就是F(5)=0.1变化为F(5)=0.这个变化率增加了100%，引入残差后映射对输出变化变的更加敏感了，明显后者输出变化对权重的调整作用更大，所以效果更好。

这也就是为什么ResNet虽然层数很多但是收敛速度也不会低的原因。

4.因为Resnet深层网络的训练目标是恒等变换，也就是H（x）=x，那么也就相当于=0，为什么有博客说F（x）=0比F（x）=x的拟合难度低：

（1）第一种解释：

把f（x）和x看作向量，要训练的权重也是多个高维向量，假如x是二维（x1，x2），那么权重就是2*2的矩阵。拟合=x，w要做的运算为求解下面方程组得到x为单位矩阵：

w11x1+w12x2 = x1

w21x1+w22x2 = x2

如果拟合F（x）=0，只需要w=0就可以了。

（2）第二种解释：

5.如果残差学习的是恒等变换，那如何通过残差模块进行网络性能上的提升：

（1）第一个解释：【知乎李其刚的回答】

跳连接相加可以实现不同分辨率特征的组合，浅层容易有高分辨率但是低级语义的特征，而深层的特征有高级语义，但分辨率比较低。

事物本身的特征就是不同层次的，比如区分男女相对容易，不需要复杂的计算或者那么深层的网络模型，但是要区分两个女孩就需要更复杂的计算更深层的网络，我们把网络看作一个映射或者函数，在没有残差模块的短路连接的网络中，无论简单还是复杂的特征都要用一个很复杂的网络来处理或转换，这有一些不合常理，Resnet引入了捷径，不同层次提取到的特征可以通过捷径影响预测结果。在Resnet中，我们要区分三个人的思路是：先提出男女特征，这个特征通过捷径直接影响结果，更细致的脸型皮肤等网络区分两个女孩。

Resnet的短路连接至可以跨越一种分辨率，Densenet跳接组合了更多分辨率的特征。

（2）第二个解释：

引入跳接让模型自身有了更加灵活的结构，也就是在训练过程中，模型可以选择在每一个部分是“更多进行卷积与非线性变换”还是更多倾向于“什么也不做”，或者二者结合，模型在训练时自适应本身的结构。

（3）第三个解释：

“在初始化和BN已经解决了梯度消失/爆炸”这个客观事实下，假设把浅层模型权重100%拷贝到深层，模型效果应该和浅层网络一样，不应该变差。在这个前提下，如果在浅层网络上堆叠一些新层，这些层“哪怕有一点梯度传过来，那都算是正向收益”。

100%拷贝权重可以用X=表示，X是浅层输出，是)拷贝完后的深层，这也就是作者说的理想情况下的恒等映射。假如我们在X和之间加一些层“扰动或者delta”，也就是=X+，只要模型能学到这个delta网络层的权重，那么就是整个深层模型有效的。

（4）第四个解释：【知乎SuperMHP】
残差模块并不是就是恒等，可以理解为，当网络需要这个模块恒等时它比较容易变成恒等，而传统的卷积模块很难通过学习变成恒等，因为信号与系统中Filter的冲击响应要为一个冲击函数，3神经网络本质是学习概率分布，因此局部一层不容易变成恒等，而Resnet模块的引入给了神经网络学习恒等映射的能力。

所以Resnet除了减弱梯度消失外，这也是一种自适应深度，也就是网络可以自己调节层数的深浅，不需要太深的网络时中间恒等映射就多，需要深层网络时中间的恒等映射就少。

当然实际上的神经网络的训练结果基本是一个整体，并不会有这么强的局部特性，也不一定会出现某些模块严格恒等的情况。

（5）第五个解释：

当=0时，那么H(x)=x，也就是说学习到的是恒等变换，输入为x,输出也为x，这是一种非常极端的情况，在这个极端的情况下至少可以保证层数增加时网络的性能不会下降，并且=0很容易学习（只需要将对应的W和b均置0即可）。

既然是恒等变换，那为什么还要加这一层呢，不加这层直接输出不就好了吗？是因为实际上学习到的残差不一定为0，这也会使得堆积层在输入特征基础上学习到新的特征，从而拥有更好的性能。

6.Resnet有效性的三种解释：

（1）第一个解释【何凯明论文中指出的动机】：

使网络更容易在某些层学到的恒等变换，在某些层执行恒等变换是一种构造性解，使更深的模型的性能至少不低于较浅的模型。

[1512.03385] Deep Residual Learning for Image Recognition

（2）第二个解释：

残差网络是很多浅层网络的集成，主要的实验证据是：把Resnet中的某些层直接删掉，模型的性能几乎不下降。

[1605.06431] Residual Networks Behave Like Ensembles of Relatively Shallow Networks