一步一步推導反向傳播

假如我們由如下的網絡（這裏只給出最後兩層 $l$ 和 $l+1$ ）其中 $l+1$ 是最後輸出：

其中有如下定義：

$a^{l+1} = sigmoid(z^{l+1})……(1)$
$z^{l+1} = w^l*a^l… ………(2)$
注意這裏的 $w、a、z$ 都是矩陣或向量。其定義和吳恩達的一樣，比如 $a^l_j$ 代表第 $l層的第j個節點$ 。

因爲反向傳播是要求最後的損失對前面所有的權重的導數，然後再更新權重，所以我們的關鍵在於求出損失的權重的求導，上面的圖中最後的輸出是 $a^{l+1}$ ，所以我們對應的損失如下：

$J(\theta) =-[yloga^{l+1}+(1-y)log(1-a^{l+1})]$ 我們將 $J(\theta)寫作C$ 。

我們的目的是要求 $\frac{\partial C}{\partial w^l}$ ，我們可以通過鏈式運算：

首先由上面的損失公式，我們可以很直觀的看出來 $\frac{\partial C}{\partial a^{l+1}} =\frac{a^{l+1}-y}{a^{l+1}(1-a^{l+1})}$ ,注意這裏省去了常數部分。

根據鏈式法則，我們可以得到 $\frac{\partial C}{\partial z^{l+1}} =\frac{\partial C}{\partial a^{l+1}}\frac{\partial a^{l+1}}{\partial z^{l+1}}$ ,然後再結合式1，因爲 $a^{l+1} = sigmoid(z^{l+1})$ ，並且 $f(x) = sigmoid(x)的導數爲f’(x) =f(x)(1-f(x))$ ，所以 $\frac{\partial a^{l+1}}{\partial z^{l+1}}=a^{l+1}(1-a^{l+1})$ ,最終我們得到如下：
$\frac{\partial C}{\partial z^{l+1}} =\frac{\partial C}{\partial a^{l+1}}\frac{\partial a^{l+1}}{\partial z^{l+1}}=a^{l+1}-y …… (3)$
我們離權重只剩下一步之遙了，同樣利用鏈式法則，我們可以得到 $\frac{\partial C}{\partial w^{l}} =\frac{\partial C}{\partial z^{l+1}}\frac{\partial z^{l+1}}{\partial w^{l}}$ ,結合式子2，因爲 $z^{l+1} = w^l*a^l$ ，所以 $\frac{\partial z^{l+1}}{\partial w^{l}} =a^l$ 到此爲止，我們得到了損失對 $w^l$ 的導數：
$\frac{\partial C}{\partial w^{l}} =\frac{\partial C}{\partial z^{l+1}}\frac{\partial z^{l+1}}{\partial w^{l}}=\frac{\partial C}{\partial z^{l+1}}a^l=(a^{l+1}-y)*a^l ……(4)$

看到這裏，可能心裏想，這如果要好幾百層怎麼推呀，其實我們可以發現當我們求第 $l$ 層的時候，我們會用到 $l+1$ 層的數據，所以如果能找到規律就好了，那麼我們再向下推一層看看，同理，根據鏈式法則，我們可以得到 $\frac{\partial C}{\partial z^{l}}=\frac{\partial C}{\partial z^{l+1}}\frac{\partial z^{l+1}}{\partial z^{l}}$ ,而 $z^{l+1}=w^la^l=w^lsigmoid(z^l)$ ，所以 $\frac{\partial z^{l+1}}{\partial z^{l}}=(w^l)^Ta^l(1-a^l)$ ，所以我們得到如下：
$\frac{\partial C}{\partial z^{l}}=\frac{\partial C}{\partial z^{l+1}}(w^l)^Ta^l(1-a^l)……（5）$

看看我們發現了什麼，我們發現第 $l$ 層對 $z$ 的導數和第 $l+1$ 層對 $z$ 的關係了，所以我們可以設 $\frac{\partial C}{\partial z^{l}} =\delta^l$ ,所以我們有：
$\delta^l = \delta^{l+1}(w^l)^Ta^l(1-a^l)……（6）$
再根據鏈式法則得到對權重的導數爲:
$\frac{\partial C}{\partial w^{l-1}} =\frac{\partial C}{\partial z^{l}} \frac{\partial z^l}{\partial w^{l-1}} =\delta^la^{l-1}……（7）$
其中（ $z^l=w^{l-1}a^{l-1}$ ）

按照（7）這種寫法，我們也可以將（4）改下如下：
$\frac{\partial C}{\partial w^{l}} =\frac{\partial C}{\partial z^{l+1}}\frac{\partial z^{l+1}}{\partial w^{l}}= \delta^{l+1}a^l ……(4\_1)$
所以我們就得到了我們的損失對於任意 $l$ 層的權重的導數，也就是式子4_1,發現裏面只存在一個 $\delta$ 是未知的，而結合式子6，我們就能遞推求出所有層的 $\delta$ 。

比如我們最後一層是 $L$ 層，根據 $\delta^l$ 的定義得到 $\delta^L=\frac{\partial C}{\partial z^{L}}$ ，因爲最後一層，所以結合損失，計算得到 $\delta^L=\frac{\partial C}{\partial z^{L}}=a^L-y$ ,可以參考式子3的計算。當計算得到第 $L層的\delta$ ,那麼 $L-1,L-2...$ 就可以遞推得到，進而帶入4_1，就能得到對所有層權重的導數，進而更新權重。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

一步一步推導反向傳播

一步一步推導反向傳播

vscode配置基於maven的Javaweb開發

一步一步推導反向傳播

Fetch API cannot load，URL scheme must be "http" or "https" for fan request 錯誤解決

TypeError_ an integer is required (got type tuple) RandomResizedCrop

Floccus – 跨平臺瀏覽器「書籤同步」插件

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結