前向傳播算法和反向傳播算法

最近在看神經網絡中的前向傳播算法(FP)和反向傳播算法(BP)，特地進行總結一下，方便以後理解。

1.基本概念

上圖是一張自己畫的神經網絡的圖。假設每一層都添加了偏度單元（即值爲1的神經元），用來表示閥值（因爲閥值通常是一個常數）。

上圖中 ${x_{1}, x_{2}, x_{3}}$ 表示輸入（假設其中添加了偏度單元，後面不再重複）， $w i j (k)$ 表示聯結權重，其中 $i$ 表示每次輸入中的第 $i$ 個元素， $j$ 表示經過聯結權重處理之後的輸出中的第 $j$ 個元素， $k$ 指明是第 $k$ 層到第 $(k + 1)$ 層之間的聯結權重。 $a_{i j}$ 表示經過聯結權重處理後的輸出，其中 $i$ 表示第 $i$ 層，j表示第 $j$ 個輸出; $H (x)$ 表示激活函數， $Z_{i j}$ 表示 $a_{i} j$ 經過激活函數處理之後的輸出，即 $Z_{i j} = H (a_{i j})$ 。 ${y_{1}, y_{2}, y_{3}}$ 表示經過神經網絡處理之後最終的輸出。

其中

a_{i j} = \sum_{k = 1}^{N} w_{k j (i - 1)} z_{(i - 1) k}

其中

i

表示第

i

層，

j

表示第

j

個元素，

N

表示總輸入個數，

z

表示輸入，對於輸入層

{x_{1}, x_{2}, x_{3}}

可以表示爲

{z_{11}, z_{12}, z_{13}}

。例如上圖中有:

a_{31} = w_{11} (2) * z_{21} + w_{21} (2) * z_{22} + w_{31} (2) * z_{23}

2.前向傳播算法

前向傳播算法，顧名思義，是由前往後進行的一個算法。最開始，我們會初始化一組 $w$ 的取值，並且選定一個激活函數，爲了後面的方便，我們假設選定 $s i g m o i d$ 函數作爲函數，其函數形式爲：

H (x) = g i n m o i d (x) = \frac{1}{1 + e^{- x}}

並且它的導數爲

H^{'} (x) = H (x) (1 - H (x))

。

有了聯結權重 $w$ 和激活函數 $H (x)$ 之後，就可以由前往後計算，依次算出所有的 $a$ 值， $z$ 值，最終算出輸出層的 $y$ 值。這就是前向傳播算法。

3.反向傳播算法

前面用初始化的聯結權重計算的輸出層值和實際值肯定會有很大的偏差，我們需要對連接權重進行優化，此時就需要使用反向傳播算法。

現在假設經過前向傳播算法計算的某個輸出值爲 $y_{k}$ ，表示輸出層的第 $k$ 個輸出，而其實際的值爲 $t_{k}$ （訓練樣本的標籤值是已知的，不然怎麼訓練）。那麼誤差函數定義如下：

E = \frac{1}{2} \sum_{k} (y_{k} - t_{k})^{2}

後向傳播算法是通過梯度下降的方法對聯結權重進行優化，所以需要計算誤差函數對聯結權重的偏導數。

對於和輸出層直接關聯的連接權重，即上圖中的 $w_{i j} (3)$ ，簡稱爲 $w (3)$ ，對其求偏導有：

\frac{\partial E}{\partial w (3)} = \frac{\partial E}{\partial y_{k}} * \frac{\partial y_{k}}{\partial a_{4 d}} * \frac{\partial a_{4 d}}{\partial w (3)} = (y_{k} - t_{k}) * H^{'} (a_{4 d}) * z_{3}

例如圖中，假設僅僅計算

y_{1}

的輸出偏差對

w_{11} (3)

的偏導數:

\frac{\partial E}{\partial w_{11} (3)} = \frac{\partial E}{\partial y_{1}} * \frac{\partial y_{1}}{\partial a_{41}} * \frac{\partial a_{41}}{\partial w_{11} (3)} = (y_{1} - t_{1}) * H^{'} (a_{41}) * z_{31}

其中因爲

a_{41} = w_{11} (3) * z_{31} + w_{21} (3) * z_{32} + w_{31} (3) * z_{33}

，當

a

對

w

求偏導數時，僅僅有一項

z

和對應的

w

相乘得到

a

，所以求導結果便是某個

z

，請結合上面例子理解。

1.對於和輸出層直連的 $w_{i j} (k)$ 有:

\frac{\partial E}{\partial w_{i j} (k)} = \frac{\partial E}{\partial a_{(k + 1) j}} * \frac{\partial a_{(k + 1) j}}{\partial w_{i j} (k)}

我們假設

\frac{\partial E}{\partial a_{(k + 1) j}} \equiv δ^{k + 1}

,並且有

\frac{\partial a_{(k + 1) j}}{\partial w_{i j} (k)} = z_{k j}

，那麼有:

\frac{\partial E}{\partial w_{i j} (k)} = δ^{k + 1} * z_{k j} (公 式 3.1)

由於

z_{k j}

在前向傳播算法中就已經可以求得，所以重點是求解各層的

δ

,以便獲得對

w

的偏導，用於梯度下降過程中

w

的更新。

2.對於隱藏層的 $w_{i j} (k)$ ，我們無法直接知道該層該層的損失爲多少，需要由後面傳播過來，這就是反向傳播的原理。這裏假設輸出層(第k+1層)共有 $j$ 個神經元，第k層有 $i$ 個神經元，第(k-1)層有 $l$ 個神經元；與輸出層相連的 $w$ 爲 $w_{i j} (k)$ ，和輸出層最近的隱藏層的 $w$ 爲 $w_{l i} (k - 1)$ ，表示該層( $k - 1$ 層)共有 $l$ 個神經元。則輸出誤差對該層 $w$ 的偏導數爲:

\frac{\partial E}{\partial w_{l i} (k - 1)} = \frac{\partial E}{\partial a_{k i}} * \frac{\partial a_{k i}}{\partial w_{l i} (k - 1)} = δ^{k} * z_{(k - 1) i} (公 式 3.2)

又：

\frac{\partial E}{\partial w_{l i} (k - 1)} = \sum_{j} \frac{\partial E}{\partial a_{(k + 1) j}} * \frac{\partial a_{(k + 1) j}}{\partial z_{k i}} * \frac{\partial z_{k i}}{\partial a_{k i}} * \frac{\partial a_{k i}}{\partial w_{l i} (k - 1)}

即=：

\frac{\partial E}{\partial w_{l i} (k - 1)} = \sum_{j} δ^{k + 1} * w_{i j} (k) * H^{'} (a_{(k + 1) j}) * z_{(k - 1) i} (公 式 3.3)

將公式3.2和公式3.3進行對比，可以發現：

δ^{k} = H^{'} (a_{(k + 1) j}) * \sum_{j} δ^{k + 1} * w_{i j} (k) (公 式 3.4)

所以就可以由後面的

δ

推出前面的

δ

，即用

δ^{k + 1}

推出

δ^{k}

，依次類推，就可以求出每一層對應的

δ

，又根據公式3.1，就可以求解出誤差對每一層聯結權重

w (k)

的偏導數，再利用如下公式利用梯度下降法更新權重：

w_{m + 1} = w_{m} + α \frac{\partial E}{\partial w}

其中m表示第m輪迭代，(m+1)表示第(m+1)輪迭代。

所以反向傳播算法就是，先根據輸出層的誤差，計算出輸出層對應的 $δ$ ，然後再依次反向往前推出隱藏層的 $δ$ 。看公式3.4你會發現，其實第 $k$ 層的某個 $δ^{k}$ ，相當於從第 $k + 1 层的 δ^{k + 1}$ 中分配了一部分誤差過來，而這個分配的權重，就是前向傳播算法中使用的連接權重 $w$ ，所以這類似於一個反覆的過程。以下圖中的 $w_{11} (2)$ 爲例，誤差對它的偏導數爲:

\frac{\partial E}{\partial w_{11} (2)} = \frac{\partial E}{\partial a_{31}} * \frac{\partial a_{31}}{\partial w_{11} (2)} = δ_{1}^{k} * z_{21}

又:

δ_{1}^{k} = H^{'} (a_{31}) * \sum_{j = 1}^{3} δ_{j}^{k + 1} * w_{1 j} (k)

可以看出

w_{11} (2)

影響了

a_{3} 1

，進而影響了

z_{3} 1

，而

z_{31}

對後面的輸出

{a_{41}, a_{42}, a_{43}}

都有影響，並且是通過連接權重

w_{1 j} (3)

來實現的;所以當有錯誤發生時，誤差也是通過相應的聯結權重

w_{1 j} (3)

反向回去，分配錯誤。

所以反向傳播算法的完整過程如下:
1.初始化聯結權重 $w_{i j}$ .
2.對於輸入的訓練樣本，求取每個節點輸出和最終輸出層的輸出值.
3.對輸出層求取 $δ_{k} = (y_{k} - t_{k}) * H^{'} (a_{k})$
4.對於隱藏層求取 $δ_{j} = H^{'} (a_{k}) * \sum_{k} δ_{k} * w_{j k}$
5.求取輸出誤差對於每個權重的梯度: $\frac{\partial E_{n}}{\partial w_{j i}} = δ_{j} * z_{i}$
6.更新權重： $w^{m + 1} = w^{m} + α \frac{\partial E}{\partial w}$

前向傳播算法和反向傳播算法

1.基本概念

2.前向傳播算法

3.反向傳播算法

PCA解析

Python中list（列表）

關聯性挖掘--Apriori算法詳解

ELMo代碼詳解(一)：數據準備

支持向量機(SVM)推導

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結