論文地址:Identity Mappings in Deep Residual Networks
在上一篇文章中,對MSRA何凱明團隊的ResNet進行了介紹(地址),那篇文章中提到了,1202層的ResNet出現了過擬合的問題,有待進一步改進。第二年,何的團隊就發表了“Identity Mappings in Deep Residual Networks”這篇文章,分析了ResNet成功的關鍵因素——residual block背後的算法,並對residual block以及after-addition activation進行改進,通過一系列的ablation experiments驗證了,在residual block和after-addition activation上都使用identity mapping(恆等映射)時,能對模型訓練產生很好的效果,通過這項改進,也成功的訓練出了具有很好效果的ResNet-1001。
在原始的ResNet中,對於每一個residual building block:
可以表現爲以下形式:
其中
而本文提出了,如果h(x)和f(y)都是恆等映射,即
即上面的公式可以表達爲:
那麼通過遞歸,可以得到任意深層單元L特徵的表達:
文章分析了這個表達的優良特性:
(1)對於任意深的單元
(2)對於任意深的單元
而對於反向傳播,假設損失函數爲
將梯度分成了兩個部分:不通過權重層的傳遞和通過權重層的傳遞。其中保證了信號能夠直接傳回到任意淺層
通過了以上分析,作者設計實驗來進行驗證。
首先,對於恆等跳躍連接
作者認爲,捷徑連接中的操作 (縮放、門控、1
而且雖然1
接下來,對於激活函數,作者設計了以下幾種形式:
實際上只是激活函數(ReLU/BN)的位置有所不同,由於作者希望構建一個恆等的
甚至在1001層的ResNet上也克服了過擬合的問題:
作者認爲這是由兩方面引起的:第一,由於
這篇文章爲深層模型的訓練提供了很好的方式和思路,也促進了深層模型的進一步發展,接下來我將會把這篇文章的譯文提供給大家,也歡迎大家的批評指正。