反向传播:公式推导篇

概述

本节推导了一个两层的全连接层的正向传播公式以及反向传播公式。虽然只是用一个两层的全连接层举例,各层也只取了一个参数作为推导,但我觉得阅读下来大家还是能对神经网络的正向传播、反向传播以及参数更新产生更深刻的理解。本节只是公式推导篇,欢迎阅读另一篇反向传播:代码演示篇

正文

网路构架如下图所示,接下来给大家推导反向传播过程以及参数是如何更新的。
在这里插入图片描述
该网络包括一个输入层,一个隐含层,一个输出层。这里损失函数L我们使用均方差损失函数。我们可以很快得出正向传播公式,其中σ()指Sigmoid激活函数。
在这里插入图片描述

隐藏层到输出层的参数的偏导数

这里取W2W_{2}中的wniw_{ni}参数作为举例推导。
观察正向传播公式,参数wniw_{ni}这一列最开始与HH相乘,得到gig_{i}gig_{i}GiG_{i}关联,GiG_{i}LiL_{i}关联,所以这里求和符号可以去掉。以下是公式推导:
在这里插入图片描述

输入层到隐藏层的参数的偏导数

这里取W1W_{1}中的wmnw_{mn}参数作为举例推导。
观察正向传播公式,参数wmnw_{mn}最开始与hnh_{n}关联,hnh_{n}HnH_{n}关联,而HnH_{n}W2W_{2}相乘后与整个gg关联,整个gg与整个GG关联,整个GG跟整个LL关联,所以在这里求和符号不可以去掉。以下是公式推导:
在这里插入图片描述

这些参数是如何更新的

现在我们有了这些参数的偏导数,我们就可以通过梯度下降法更新参数了:
α就是我们常说的学习率。

在这里插入图片描述

为什么梯度下降法是有效的?

引用知乎@老董的答案

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章