多層神經網絡BP算法解釋

原創

2018-08-25 03:33

# 多層神經網絡BP算法解釋 ## 前向傳播 *** * 該項目採用反向傳播算法描述了多層神經網絡的教學過程。爲了說明這個過程，使用了具有兩個輸入和一個輸出的三層神經網絡，如下圖所示:

訓練數據由（期望輸出） $z$ 和輸入信號 $x_{1}$ 和 $x_{2}$ 組成。
神經網絡訓練是一個迭代過程。在每次迭代中，使用來自訓練數據集的新數據來修改節點的權重係數 $w$ 。
使用下面描述的算法計算修改：每個教學步驟從強制來自訓練集的兩個輸入信號開始。在此階段之後，我們可以確定每個網絡層中每個神經元的輸出信號值。
下面的圖片說明了信號如何通過網絡傳播，符號 $w_{（ x m ） n}$ 表示輸入層中網絡輸入 $x m$ 和神經元 $n$ 之間的連接權重。符號 $y_{n}$ 表示神經元 $n$ 的輸出信號。

y_{1} = f_{1} (w_{(x_{1}) 1} * x_{1} + w_{(x_{2}) 1} * x_{2})

y_{2} = f_{2} (w_{(x_{1}) 2} * x_{1} + w_{(x_{2}) 2} * x_{2})

y_{3} = f_{3} (w_{(x_{1}) 3} * x_{1} + w_{(x_{2}) 3} * x_{2})

* 其中

f ()

函數可以是

s i g m o d

函數

e x . f (z) = \frac{1}{1 + e^{- z}}

/div> *** * 通過隱藏層傳播信號。 * 符號

w_{m n}

表示下一層中神經元

m

的輸出與神經元

n

的輸入之間的連接的權重。

## BP網絡 *** * 將神經網絡的輸出信號

\hat{y}

與在訓練數據集中找到的真實值（

y

）進行比較。該差異被稱爲輸出層神經元的誤差信號

δ

。

δ = y - \hat{y}

與下圖片對應關係爲

y = z

\hat{y} = y

無法計算直接計算隱藏層的真實值和誤差，因爲該過程在實際生產中不存在，或不可得。
爲此，八十年代中期，提出了 BP算法
上一條是重點，重點，重點。
注意下圖公式有誤，正確表達爲
$δ_{4} = w_{46} * δ * \frac{d f_{6} (e)}{d e} = - w_{46} * δ * \hat{y} * (1 - \hat{y})$
其他的同類表達式也需要類似的修改，請注意。
對於有多條邊連接的節點， $δ$ 爲每條邊結果的和。

獲得每個神經元的誤差信號後，可以利用誤差來修改每個神經元輸入節點的權重係數。
下面的公式
$\frac{\partial (δ^{2})}{\partial e} = \frac{\partial (y - \hat{y})^{2}}{\partial e} = - (y - \hat{y}) * \hat{y} * (1 - \hat{y})$
表示神經元激活函數的導數殘差。
$δ^{2}$ 即爲 損失函數
又因爲對 $\frac{d e}{d θ}$ 有
$\frac{d e}{d θ} = \frac{\partial θ^{T} x}{\partial θ} = x$
由於鏈式法則：
$\frac{\partial (δ^{2})}{\partial θ} = \frac{\partial (y - \hat{y})^{2}}{\partial e} \frac{d e}{d θ} = - (\hat{y} - y) * \hat{y} * (1 - \hat{y}) * x = - δ * \hat{y} * (1 - \hat{y}) * x$
$\hat{y}$ 表示輸出值
$y$ 表示真實值
$x$ 代表上一層的輸出或者原始的輸入
$δ$ 表示誤差 這裏用到了上一節BP中的假設
通過這部分化簡，我們利用誤差 $δ$ 代替了的 $y - \hat{y}$ 從而避開了隱藏層中的未知量 $y$
最後利用標準的* 梯度下降公式*:
$\hat{w} = w - η * \nabla = w + η * δ * \hat{y} * (1 - \hat{y}) * x = w + η * δ * \frac{\partial y}{\partial e} * x$