DNN的反向传播

1. DNN反向传播图解

转载自：https://www.cnblogs.com/MatrixPlayer/p/7661232.html

其实反向传播算法从公式上来看，损失C对W的权重有两部分，

1）激活函数Z对W的偏导数 $\frac{\partial z}{\partial W}=a$ ，此项其实就是前向传播（a当前这个神经元的输入）

2）C对激活函数Z的偏导数，此项就是反向传播。

总结反向传播的计算：

为什么权值矩阵在反向传播是是乘以W的转置？

数学推导部分

正向传播：

反向传播：求梯度

2. 整个神经网络的公式推导

反向传播需要用到链式法则，所以定义一个中间变量 $\delta _i^{l+1}$ :

$\delta _i^{l+1}=\frac{\partial L}{\partial z_i^{l+1}}$

求单个神经元的梯度

根据链式求导法则，第层的第个神经元的梯度为：

$\delta _i^{l}=\frac{\partial L}{\partial z_i^{l}}$

$=\sum_k^{N^{l+1}}\frac{\partial L}{\partial z_k^{l+1}}\cdot \frac{\partial z_k^{l+1}}{\partial z_i^{l}}$

因为正向传播时，第层的神经元（共 $N^{l+1}$ 个）会接收第层所有神经元的输出值作为输入，所以反向传播时

第层的每个神经元的梯度都有第层的所有结点的梯度累积求和得到。

$\delta _i^{l}=\frac{\partial L}{\partial z_i^{l}}$

$=\sum_k^{N^{l+1}}\frac{\partial L}{\partial z_k^{l+1}}\cdot \frac{\partial z_k^{l+1}}{\partial z_i^{l}}=\sum_k^{N^{l+1}}\frac{\partial L}{\partial z_k^{l+1}}\cdot \frac{\partial z_k^{l+1}}{\partial a_i^{l}}\cdot \frac{\partial a_i^{l}}{\partial z_i^{l}}$