卷積神經網絡CNN的反向傳播算法推導

文章目錄

1. 全連接層

與深度神經網絡DNN的反向傳播算法一致，輔助變量：
$\left\{\begin{aligned} &\delta^L = \frac{\partial J}{\partial z^L} = \frac{\partial J}{\partial a^L} \odot \sigma'(z^L)\\ &\\ &\delta^l = (W^{l+1})^T\delta^{l+1}\odot \sigma'(z^l) \end{aligned}\right.$
進而求得參數 $W$ ， $b$ 的梯度：
$\left\{\begin{aligned} &\frac{\partial J}{\partial W^l} = \frac{\partial J}{\partial z^l} \frac{\partial z^l}{\partial W^l} = \delta^l(a^{l-1})^T\\ &\\ & \frac{\partial J}{\partial b^l} = \frac{\partial J}{\partial z^l} \frac{\partial z^l}{\partial b^l} = \delta^l \end{aligned}\right.$

2. 池化層

設池化層的輸入爲 $a^{l}$ ，輸出爲 $z^{l+1}$ ，則有：
$z^{l+1} = \text{pool}(a^{l})$
則
$\delta^{l}= \frac{\partial J}{\partial z^{l}}= \frac{\partial J}{\partial z^{l+1}} \frac{\partial z^{l+1}}{\partial a^{l}}\frac{\partial a^{l}}{\partial z^{l}} = \text{upsample} (\delta^{l+1})\odot \sigma'(z^l)$
其中，upsample指在反向傳播時，把 $\delta^{l+1}$ 的矩陣大小還原成池化之前的大小，一共分爲兩種情況：

如果是Max，則把 $\delta^{l+1}$ 的各元素值放在之前做前向傳播算法得到最大值的位置，所以這裏需要額外記錄每個區塊中最大元素的位置
如果是Average，則把 $\delta^{l+1}$ 的各元素值取平均後，填入對應的區塊位置。

舉例，設池化層的核心大小是 $2\times2$ ，則：
$\delta^{l+1} = \left( \begin{array}{ccc} 2& 8 \\ 4& 6 \end{array} \right) \xrightarrow{\text{Max upsample}} \left( \begin{array}{ccc} 2&0&0&0 \\ 0&0& 0&8 \\ 0&4&0&0 \\ 0&0&6&0 \end{array} \right)$
$\delta^{l+1} = \left( \begin{array}{ccc} 2& 8 \\ 4& 6 \end{array} \right) \xrightarrow{\text{Average upsample}} \left( \begin{array}{ccc} 0.5&0.5&2&2 \\ 0.5&0.5&2&2 \\ 1&1&1.5&1.5 \\ 1&1&1.5&1.5 \end{array} \right)$
注意，對於Average情況下的反向傳播，容易誤認爲是把梯度值複製幾遍之後直接填入對應的區塊位置。其實很容易理解爲什麼要把梯度值求平均，我們用一個小例子來說明：

假設對四個變量 $a, b, c, d$ 求平均，得到 $z$ ，也即：
$z=\frac{1}{4}(a+b+c+d)$
那麼， $z$ 關於每個變量的導數都是1/4。反向傳播到 $z$ 時，累積的梯度值爲 $\delta$ ，那麼，
$\left\{\begin{aligned} &\frac{\partial J}{\partial a} = \frac{\partial J}{\partial z}\frac{\partial z}{\partial a} = \frac{1}{4}\delta\\ &\frac{\partial J}{\partial b}= \frac{\partial J}{\partial z}\frac{\partial z}{\partial b} = \frac{1}{4}\delta\\ &\frac{\partial J}{\partial c}= \frac{\partial J}{\partial z}\frac{\partial z}{\partial c} = \frac{1}{4}\delta\\ &\frac{\partial J}{\partial d}= \frac{\partial J}{\partial z}\frac{\partial z}{\partial d} = \frac{1}{4}\delta \end{aligned}\right.$
這樣就很容易理解了。

3. 卷積層

卷積層的前向傳播公式：
$a^{l+1} = \sigma(z^{l+1}) = \sigma(a^l*W^{l+1} + b^{l+1})$
則
$\delta^{l}= \frac{\partial J}{\partial z^{l}}= \frac{\partial J}{\partial z^{l+1}} \frac{\partial z^{l+1}}{\partial a^{l}}\frac{\partial a^{l}}{\partial z^{l}} = \delta^{l+1} *\text{Rotation180}(W^{l+1})\odot \sigma'(z^l)$
其中Rotation180意思是卷積核 $W$ 被旋轉180度，也即上下翻轉一次，接着左右翻轉一次。

詳細推導請參見 https://www.cnblogs.com/pinard/p/6494810.html

參數 $W$ ， $b$ 的梯度：
$\left\{\begin{aligned} &\frac{\partial J}{\partial W^l} = \frac{\partial J}{\partial z^l} \frac{\partial z^l}{\partial W^l} = a^{l-1}*\delta^l\\ &\\ & \frac{\partial J}{\partial b^l} = \frac{\partial J}{\partial z^l} \frac{\partial z^l}{\partial b^l} = \sum\limits_{u,v}(\delta^l)_{u,v} \end{aligned}\right.$
其中，關於 $W$ 的梯度沒有旋轉操作， $\sum\limits_{u,v}(\delta^l)_{u,v}$ 意思是把 $\delta^l$ 的所有通道沿通道方向求和，累加成一個通道。

4. 參考資料

感謝 https://www.cnblogs.com/pinard/p/6494810.html

卷積神經網絡CNN的反向傳播算法推導

文章目錄

1. 全連接層

2. 池化層

3. 卷積層

4. 參考資料

vue項目獲取富文本編輯器wangEditor內容導出爲word（html轉word格式並下載）

dotnet C# 創建 X11 應用時設置窗口背景顏色

Navicat安裝與激活教程

TDengine docker安裝方法

vue3組件通信與props

sapui5

Alpine Linux apk add DNS lookup error

部分JDK版本的發佈時間

工作中用到的腳本合集

合併代碼時Beyond Compare設置

VTK 6.1 安裝配置

GAN生成對抗網絡：數學原理

Conv2d反向傳播梯度的計算過程

l1約束比l2約束更容易獲得稀疏解

Python二維數組按列取元素

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結