DNN的反向傳播

原創

你吃过卤汁牛肉吗

2019-07-18 17:13

1. DNN反向傳播圖解

轉載自：https://www.cnblogs.com/MatrixPlayer/p/7661232.html

其實反向傳播算法從公式上來看，損失C對W的權重有兩部分，

1）激活函數Z對W的偏導數 $\frac{\partial z}{\partial W}=a$ ，此項其實就是前向傳播（a當前這個神經元的輸入）

2）C對激活函數Z的偏導數，此項就是反向傳播。

總結反向傳播的計算：

爲什麼權值矩陣在反向傳播是是乘以W的轉置？

數學推導部分

正向傳播：

反向傳播：求梯度

2. 整個神經網絡的公式推導

反向傳播需要用到鏈式法則，所以定義一箇中間變量 $\delta _i^{l+1}$ :

$\delta _i^{l+1}=\frac{\partial L}{\partial z_i^{l+1}}$

求單個神經元的梯度

根據鏈式求導法則，第層的第個神經元的梯度爲：

$\delta _i^{l}=\frac{\partial L}{\partial z_i^{l}}$

$=\sum_k^{N^{l+1}}\frac{\partial L}{\partial z_k^{l+1}}\cdot \frac{\partial z_k^{l+1}}{\partial z_i^{l}}$

因爲正向傳播時，第層的神經元（共 $N^{l+1}$ 個）會接收第層所有神經元的輸出值作爲輸入，所以反向傳播時

第層的每個神經元的梯度都有第層的所有結點的梯度累積求和得到。

$\delta _i^{l}=\frac{\partial L}{\partial z_i^{l}}$

$=\sum_k^{N^{l+1}}\frac{\partial L}{\partial z_k^{l+1}}\cdot \frac{\partial z_k^{l+1}}{\partial z_i^{l}}=\sum_k^{N^{l+1}}\frac{\partial L}{\partial z_k^{l+1}}\cdot \frac{\partial z_k^{l+1}}{\partial a_i^{l}}\cdot \frac{\partial a_i^{l}}{\partial z_i^{l}}$

$=\sum_{k=1}^{N^{l+1}}\delta_k^{l+1}\cdot W_{ki}^{l+1}\cdot f(z_i^l)$

第層個神經元的反向傳播公式爲：

簡寫成矩陣乘法的形式爲：

$\delta^l=(W^{l+1})^T\cdot \delta ^{l+1}\bigodot f'(z^l)$ ，其中 $\bigodot$ 表示向量的對應元素相乘（點乘）

求權重W的梯度

第層權重矩陣中某個權重 $W_{ij}^l$ 的梯度：

$\frac{\partial L}{\partial W_{ij}^l}=\frac{\partial L}{\partial z_i^l}\cdot \frac{\partial z_i^l}{\partial W_{ij}^l}=\delta_i^l\cdot a_j^{l-1}$

寫成矩陣的形式爲：

簡寫爲：

$\frac{\partial L}{\partial W^l}=\delta^l\cdot (a^{l-1})^T$

對偏置b的梯度

$\frac{\partial L}{\partial b_i^l}=\frac{\partial L}{\partial z_i^l}\cdot \frac{\partial z_i^l}{\partial b_i^l}=\delta_i^l\cdot 1$

寫成矩陣形式：

簡寫爲：

$\frac{\partial L}{\partial b_i^l}=\delta_i^l$

論nn.Conv2d中的反向傳播實現過程：https://blog.csdn.net/g11d111/article/details/83021651

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

幾種可分卷積

參考： http://www.sohu.com/a/317166403_394987 0. 標準的2D卷積對於神經元的輸入（7*7*3），用一個3*3*3的卷積覈對輸入進行卷積，得到一個5*5*1的特徵圖：若想得到128個特徵圖，需

你吃过卤汁牛肉吗

2020-06-22 00:40:02

萬能近似定理（universal approximation theorrm）

神經網絡的架構（architecture）指網絡的整體結構。大多數神經網絡被組織成稱爲層的單元組，然後將這些層佈置成鏈式結構，其中每一層都是前一層的函數。在這種結構中，第一層由下式給出：第二層：第三層，以此類推！可以看出，每一層

2020-06-16 09:31:20

權重衰減（weight decay）與L2正則化

1. 權重衰減（weight decay） L2正則化的目的就是爲了讓權重衰減到更小的值，在一定程度上減少模型過擬合的問題，所以權重衰減也叫L2正則化。 1.1 L2正則化與權重衰減係數 L2正則化就是在代價函數後面再加上一個正則化項：

2020-06-12 18:24:34

SSD系列目標檢測算法

1.原版SSD 2.tinyDSOD 結合DenseNet和深度可分離卷積，提出了Depthwise dense block (DDB) ；結合FPN和深度可分離卷積，提出了D-FPN；結合提出的Depthwise dense

2020-06-12 18:24:34

矩陣跡運算

2020-02-21 03:05:42

自編碼器（auto-encoder）介紹

2020-02-21 03:05:42

梯度消失（vanishing gradient）和梯度爆炸（exploding gradient）

2020-02-21 03:05:42

爲什麼交叉熵損失可以提高具有sigmoid和softmax輸出的模型的性能，而使用均方誤差損失則會存在很多問題

2020-02-21 03:05:42

如何解決過擬合和欠擬合

你吃过卤汁牛肉吗

2019-08-05 22:16:30

空間金字塔池化SPP

你吃过卤汁牛肉吗

2019-07-18 17:13:41

模型顯存佔用及其計算量

你吃过卤汁牛肉吗

2019-07-18 17:13:41

卷積的三種模式：full、same、valid + 卷積輸出size的計算

你吃过卤汁牛肉吗

2019-07-10 17:22:18

將voc數據集轉換成.tfrecord格式供tensorflow訓練用

2018-09-04 04:30:25

用原生Tensorflow編寫的Inception-ResNet-V1網絡（想了解模型實現細節的看）

2018-09-04 04:30:24

ResNet

2018-09-04 04:30:24

24小時熱門文章

最新文章

最新評論文章