神經網絡算法:神經網絡計算函數反向梯度計算

主要針對神經網絡算法中的自定義求導和深度學習框架的矩陣運算層框架描述。

卷積運算

前向計算

先放一個原始的數據矩陣,在計算機視覺裏是圖像。
Data=[abcdefghijklmnop] Data= \left[ \begin{matrix} a & b & c & d\\ e & f & g & h \\ i & j & k & l \\ m & n & o & p \end{matrix} \right]
對上述數據進行一維展平處理
Data_View=[abcdefghijklmnop] Data\_View= \left[ \begin{matrix} a \\ b\\ c\\ d\\ e\\ f\\ g\\ h\\ i\\ j\\ k\\ l\\ m\\ n\\ o\\ p\\ \end{matrix} \right]
一個卷積核如下表示
Kernel=[x00x01x10x11] Kernel= \left[ \begin{matrix} x_{00} & x_{01} \\ x_{10} & x_{11} \end{matrix} \right]
上述卷積核與輸入尺寸配套的矩陣表示
Kernel_Mat=[x00x0100x10x110000x00x0100x10x110000x00x0100x10x110000x00x0100x10x11] Kernel\_Mat= \left[ \begin{matrix} x_{00} & x_{01} & 0&0&x_{10} & x_{11}&0&0&0 \\ 0&x_{00} & x_{01} & 0&0&x_{10} & x_{11} &0&0\\ 0&0&x_{00} & x_{01} & 0&0&x_{10} & x_{11} &0\\ 0&0&0&x_{00} & x_{01} & 0&0&x_{10} & x_{11} \\ \end{matrix} \right]
因此前向計算可以表示爲
Result=Data_View×Kernel_MatT Result=Data\_View\times Kernel\_Mat^T

反向計算

從前向計算的結果可以很好地表示出矩陣卷積的反向計算
BackResult=y×Data_ViewT BackResult=(y\times Data\_View)^T
其中,yy是反向傳播後的輸入矩陣,也就是上一級中的梯度。BackResultBackResult用於更新卷積核的數據,因爲採用權重共享,因此該是0的地方還是0,不是0並且相同數據的地方更新的時候取一個均值就可以了。

池化運算

前向計算

還是上一節中的數據矩陣,最大值池化沒有參數,只用考慮反向傳播即可.前向傳播中,對上面的4×44\times 4數據進行2×22\times 2的池化,最後得到2×22\times 2的結果。

反向計算

對反向傳過來的梯度ygy_g2×22\times 2擴大到4×44\times 4。每一個多出來的部分都使用其他部分進行填充。相當於把2×22\times 2池化後的每個元素的微分結果平均到之前輸入的4個元素上,作爲上一個輸入的微分結果。
舉個例子,假設上一層傳過來的梯度矩陣是這樣子的
grad=[x00x01x10x11] grad= \left[ \begin{matrix} x_{00} & x_{01} \\ x_{10} & x_{11} \end{matrix} \right]
那麼,經過池化層後的梯度矩陣應該變成這樣子的
grad2=[x004x004x014x014x004x004x014x014x104x104x114x114x104x104x114x114] grad2= \left[ \begin{matrix} \frac{x_{00}}{4} & \frac{x_{00}}{4}&\frac{x_{01}}{4} &\frac{x_{01}}{4}\\ \frac{x_{00}}{4} &\frac{x_{00}}{4}&\frac{x_{01}}{4}&\frac{x_{01}}{4}\\ \frac{x_{10}}{4} & \frac{x_{10}}{4} & \frac{x_{11}}{4} &\frac{x_{11}}{4} \\ \frac{x_{10}}{4} & \frac{x_{10}}{4} &\frac{x_{11}}{4} &\frac{x_{11}}{4} \end{matrix} \right]
然後應該就是常規的自動微分流程了。

批歸一化運算

前向計算

公式如下
Y=XE[X]Var[X] Y=\frac{X-E[X]}{\sqrt{Var[X]}}

反向計算

反向計算也比較容易
dX=Var[X]×dY+E[X] dX=\sqrt{Var[X]}\times dY+E[X]

Dropout運算

這個運算在這個博主的博客裏提到了。這裏就不贅述了。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章