論文學習：BP神經網絡

最近在學習 Long Short-Term Memery (LSTM)[1]，文獻中指出：通過遞歸反向傳播算法學習在長時間間隔內存儲信息需要花費很長的時間，這主要是由於不足、衰減的誤差反向流造成的（Learning to store information over extended time intervals via recurrent backpropagation takes a very long time, mostly due to insufficient, decaying error back flow.）。故先了解一下反向傳播算法。

一、原理

BP (back propagation)神經網絡是1986年由 Rumelhart 和 McClelland 爲首的科學家提出的概念，是一種按照誤差反向傳播算法訓練的多層前饋神經網絡（如圖1），是應用最廣泛的神經網絡。

圖1：前饋神經網絡：採用單向多層結構，分爲輸入層、隱藏層（一層或多層）和輸出層。
整個網絡中無反饋信號單向傳播。

人工神經網絡無需事先確定輸入輸出之間映射關係的數學方程（也就是連接權重 $\omega _{ij}$ ），僅通過自身的訓練，學習某種規則，在給定輸入值時得到最接近期望輸出值的結果。作爲一種智能信息處理系統，人工神經網絡實現其功能的核心是算法。BP 神經網絡是一種按誤差反向傳播(簡稱誤差反傳)訓練的多層前饋網絡，其算法稱爲 BP 算法，它的基本思想是梯度下降法，利用梯度搜索技術，以期使網絡的實際輸出值和期望輸出值的誤差均方誤差（mean squared error）爲最小。

均方誤差

基本 BP 算法包括信號的前向傳播和誤差的反向傳播兩個過程。即計算誤差輸出時按從輸入到輸出的方向進行，而調整權值和閾值則從輸出到輸入的方向進行。正向傳播時，輸入信號通過隱含層作用於輸出節點，經過非線性變換，產生輸出信號，若實際輸出與期望輸出不相符，則轉入誤差的反向傳播過程。誤差反向傳播是將輸出誤差通過隱含層向輸入層逐層反向傳播，並將誤差分攤給各層所有單元，以從各層獲得的誤差信號作爲調整各單元權值的依據。通過調整輸入節點與隱層節點的聯接強度和隱層節點與輸出節點的聯接強度以及閾值，使誤差沿梯度方向下降，經過反覆學習訓練，確定與最小誤差相對應的網絡參數(權值和閾值)，訓練即告停止。此時經過訓練的神經網絡即能對類似樣本的輸入信息，自行處理輸出誤差最小的經過非線形轉換的信息[2]。

二、詳述

（一）信號的前向傳播

圖2 [3]以輸入層 Input units（3個節點）、隱藏層 Hidden units H1（4個節點）、隱藏層 Hidden units H2（3個節點）和輸出層 Output units（2個節點）爲例，展示了信息的前向傳播。

①Hidden units H1 的輸入 $Z_{j}$ 和激活 $Y_{j}$ 是：

其中， $\omega _{ij}$ 是輸入單元到隱藏層的權重矩陣， $f(\cdot )=sigmoid(\cdot )$ 是可微函數。

②Hidden units H2 的輸入 $Z_{k}$ 和激活 $Y_{k}$ 是：

③同理，得到輸出層的輸出 $Y_{l}$ ，到此爲止信息的前向傳播已經完成。

（二）誤差的反向傳播

誤差的反向傳播是將輸出誤差通過隱含層向輸入層逐層反向傳播，並將誤差分攤給各層所有單元，以從各層獲得的誤差信號作爲調整各單元權值的依據。簡單地講就是，我們要根據每個節點對輸出誤差的“貢獻度”，來分攤誤差（貢獻度高的自然就要“承擔“更重的責任），並藉助於隨機梯度下降（SDG）方法來重新調整權重。

此處需要補充隨機梯度下降（SDG）！！！

繼圖2 給出的信息的前向傳播模型，我們這裏據需給出誤差的反向傳播模型，如圖3 。

首先我們得清楚一點，就是神經網絡中每個節點的處理邏輯（以 Hidden units H1 爲例，如圖2 所示）：用可微函數 $f(\cdot )=sigmoid(\cdot )$ 對 $Z_{j}$ 激活後得到 $Y_{j}$ 。所以我們在誤差反向分析過程中，需要明確傳播順序。下面分別通過輸出層和隱藏層爲例，說明誤差傳播邏輯。

（1）輸出層

使用均方誤差來表述輸出層的誤差：