残差网络ResNet

原創

洛北辰南

2019-06-21 09:59

转自：https://blog.csdn.net/loveliuzz/article/details/79080194

上图中是用5个残差块连接在一起构成的残差网络，用梯度下降算法训练一个神经网络，若没有残差，会发现随着网络加深，训练误差先减少后增加，理论上训练误差越来越小比较好。

而对于残差网络来讲，随着层数增加，训练误差越来越减小，这种方式能够到达网络更深层，有助于解决梯度消失和梯度爆炸的问题，让我们训练更深网络，同时又能保证良好的性能。

残差网络有很好表现的原因举例：

假设有一个很大的神经网络，输入矩阵为X，输出激活值为a[l]，加入给这个网络额外增加两层，最终输出结果为a[l+2]，可以把这两层看做一个残差模块，在整个网络中使用ReLU激活函数，所有的激活值都大于等于0。

对于大型的网络，无论把残差块添加到神经网络的中间还是末端，都不会影响网络的表现。

残差网络起作用的主要原因是：It’s so easy for these extra layers to learn the itentity function.

这些残差块学习恒等函数非常容易。可以确定网络性能不受影响，很多时候甚至可以提高学习效率。

模型构建好后进行实验，在plain上观测到明显的退化现象，而且ResNet上不仅没有退化，34层网络的效果反而比18层的更好，而且不仅如此，ResNet的收敛速度比plain的要快得多。

实际中，考虑计算的成本，对残差块做了计算优化，即将两个3x3的卷积层替换为1x1 + 3x3 + 1x1, 如下图。新结构中的中间3x3的卷积层首先在一个降维1x1卷积层下减少了计算，然后在另一个1x1的卷积层下做了还原，既保持了精度又减少了计算量。

这相当于对于相同数量的层又减少了参数量，因此可以拓展成更深的模型。于是作者提出了50、101、152层的ResNet，而且不仅没有出现退化问题，错误率也大大降低，同时计算复杂度也保持在很低的程度。