這周在看循環神經網絡，發現一個博客，裏面的推導過程極其詳細，藉此記錄重點

強烈介意手推一遍，雖然可能會花一點時間，但便於理清思路。

語言模型

RNN是在自然語言處理領域中最先被用起來的，比如，RNN可以作爲語言模型來建模。

什麼是語言模型？

語言模型：給定一個一句話前面的部分，預測接下來最有可能的一個詞是什麼。

語言模型可以用在語音轉文本（STT）上，也可以用在圖像到文本的識別中（OCR）。

使用RNN之前，語言模型主要採用N-Gram，即先對句子切詞，再在語料庫中搜索前n個詞進行預測，這樣想法沒有實用性，因爲根本沒有用到有用的信息，並且該模型還會佔用海量的存儲空間。

所以，RNN出現，理論上RNN可以往前看（往後看）任意多個詞。

循環神經網絡

基本神經網絡

如上圖左，一個簡單的循環神經網絡由一個輸入層、一個隱藏層和一個輸出層組成。

其中， $x$ 是一個向量，代表輸入層的值； $s$ 是一個向量，代表隱藏層的值； $o$ 是一個向量，代表輸出層的值。

$U$ 是輸入層到隱藏層的權重矩陣， $V$ 是隱藏層到輸出層的權重矩陣，權重矩陣 $W$ 是隱藏層上一次的值作爲這一次的輸入的權重。循環神經網絡與普通的全連接神經網絡不同的地方也就在於 $W$ 。

如上圖右，可表示循環神經網絡的計算方式：

\begin{aligned} (1) & o_{t} & = g (V s_{t}) (式 1) \\ (2) & s_{t} & = f (U x_{t} + W s_{t - 1}) (式 2) \end{aligned}

其中，式1是輸出層的計算公式，輸出層是一個全連接層，即每一個節點都與隱藏層的每個節點相連，g代表激活函數，

V

是輸出層的權重矩陣。

式2是隱藏層的計算公式，它是一個循環層，f是激活函數， $U$ 是輸入 $x$ 的權重矩陣， $W$ 是上次值 $s_{t - 1}$ 作爲這次輸入的權重矩陣。

雙向循環神經網絡

對於語言模型來說，很多時候光看前面的詞是不夠的，還需要看後面的詞。普通的基本循環神經網絡對此無法建模，因此，我們需要雙向循環神經網絡。

從上圖可知，雙向循環神經網絡的隱藏層要保存兩個值，一個 $A$ 參與正向計算，另一個值 $A^{^{'}}$ 參與反向計算。最後的輸出值 $y_{2}$ 取決於 $A_{2}$ 和 $A_{2}^{^{'}}$ 。仿照式1和試2，雙向循環神經網絡的計算方法如下：

\begin{aligned} (3) & o_{t} & = g (V s_{t} + V^{'} s_{t}^{'}) \\ (4) & s_{t} & = f (U x_{t} + W s_{t - 1}) \\ (5) & s_{t}^{'} & = f (U^{'} x_{t} + W^{'} s_{t + 1}^{'}) \end{aligned}

可以看出：正向計算時，隱藏層的值

s_{t}

與

s_{t - 1}

有關；反向計算時，隱藏層的值

s_{t}^{^{'}}

和

s_{t - 1}^{^{'}}

有關。正向計算和反向計算不共享權重，也就是說

U

和

U^{^{'}}

、

W

和

W^{^{'}}

、

V

和

V^{^{'}}

都是不同的權重矩陣。

深度循環神經網絡

之前介紹的RNN都是隻有一個隱藏層，當堆疊兩個以上隱藏層時，就得到了深度循環神經網絡

把第i個隱藏層的值表示爲 $s_{t}^{(i)}$ 、 $s_{t}^{^{'} (i)}$ ，則深度循環神經網絡的計算方式可以表示爲：

\begin{aligned} (6) & o_{t} & = g (V^{(i)} s_{t}^{(i)} + V^{' (i)} s_{t}^{' (i)}) \\ (7) & s_{t}^{(i)} & = f (U^{(i)} s_{t}^{(i - 1)} + W^{(i)} s_{t - 1}) \\ (8) & s_{t}^{' (i)} & = f (U^{' (i)} s_{t}^{' (i - 1)} + W^{' (i)} s_{t + 1}^{'}) \\ (9) & . . . \\ (10) & s_{t}^{(1)} & = f (U^{(1)} x_{t} + W^{(1)} s_{t - 1}) \\ (11) & s_{t}^{' (1)} & = f (U^{' (1)} x_{t} + W^{' (1)} s_{t + 1}^{'}) \end{aligned}

循環神經網絡的訓練

循環神經網絡的訓練算法：BPTT

BPTT算法是針對循環層的訓練算法，基本原理和BP算法一樣，包含三個步驟：

前向計算每個神經元的輸出值；
反向計算每個神經元的誤差項 $δ_{j}$ 值，它是誤差函數E對神經元j的加權輸入 $n e t_{j}$ 的偏導數；
計算每個權重的梯度。

最後再用隨機梯度下降算法更新權重。

循環層如下圖所示：

1. 前向計算

使用式2對循環層進行前向計算：

s_{t} = f (U x_{t} + W s_{t - 1})

上式中，

s_{t}

、

x_{t}

、

s_{t - 1}

都是向量，U、V是矩陣，向量的下標表示時刻。

2. 誤差項的計算

BTPP算法將第 $l$ 層的t時刻的誤差項 $δ_{t}^{l}$ 值沿兩個方向傳播，一個方向是傳遞到上一層網絡，得到 $δ_{t}^{l - 1}$ 值，這部分只與U有關；另一方向是沿時間線傳遞到初始 $t_{1}$ 時刻，得到 $δ_{1}^{l}$ 值，這部分只與W有關。

我們用向量 $n e t_{t}$ 表示神經元在t時刻的加權輸入，因爲：

\begin{aligned} (12) & {n e t}_{t} & = U x_{t} + W s_{t - 1} \\ (13) & s_{t - 1} & = f ({n e t}_{t - 1}) \end{aligned}

因此（詳細推導此處略過，詳情見鏈接）：

\begin{aligned} (14) & \frac{\partial {n e t}_{t}}{\partial {n e t}_{t - 1}} & = \frac{\partial {n e t}_{t}}{\partial s_{t - 1}} \frac{\partial s_{t - 1}}{\partial {n e t}_{t - 1}} \\ (15) & = W d i a g [f^{'} ({n e t}_{t - 1})] \\ (16) & = [\begin{matrix} w_{11} f^{'} (n e t_{1}^{t - 1}) & w_{12} f^{'} (n e t_{2}^{t - 1}) & . . . & w_{1 n} f (n e t_{n}^{t - 1}) \\ w_{21} f^{'} (n e t_{1}^{t - 1}) & w_{22} f^{'} (n e t_{2}^{t - 1}) & . . . & w_{2 n} f (n e t_{n}^{t - 1}) \\ . \\ . \\ w_{n 1} f^{'} (n e t_{1}^{t - 1}) & w_{n 2} f^{'} (n e t_{2}^{t - 1}) & . . . & w_{n n} f^{'} (n e t_{n}^{t - 1}) \end{matrix}] \end{aligned}

上式描述了將δ沿時間往前傳遞一個時刻的規律，根據這個規律，可以求得任意時刻k的誤差項

δ_{k}

：

\begin{aligned} (17) & δ_{k}^{T} = & \frac{\partial E}{\partial {n e t}_{k}} \\ (18) & = & \frac{\partial E}{\partial {n e t}_{t}} \frac{\partial {n e t}_{t}}{\partial {n e t}_{k}} \\ (19) & = & \frac{\partial E}{\partial {n e t}_{t}} \frac{\partial {n e t}_{t}}{\partial {n e t}_{t - 1}} \frac{\partial {n e t}_{t - 1}}{\partial {n e t}_{t - 2}} . . . \frac{\partial {n e t}_{k + 1}}{\partial {n e t}_{k}} \\ (20) & = & W d i a g [f^{'} ({n e t}_{t - 1})] W d i a g [f^{'} ({n e t}_{t - 2})] . . . W d i a g [f^{'} ({n e t}_{k})] δ_{t}^{l} \\ (21) & = & δ_{t}^{T} \prod_{i = k}^{t - 1} W d i a g [f^{'} ({n e t}_{i})] (式 3) \end{aligned}

式3是將誤差項沿時間反向傳播的算法。

循環層將誤差項反向傳遞到上一層網絡，與普通的全連接層完全一樣。

\begin{aligned} (22) & (δ_{t}^{l - 1})^{T} = & \frac{\partial E}{\partial {n e t}_{t}^{l - 1}} \\ (23) & = & \frac{\partial E}{\partial {n e t}_{t}^{l}} \frac{\partial {n e t}_{t}^{l}}{\partial {n e t}_{t}^{l - 1}} \\ (24) & = & (δ_{t}^{l})^{T} U d i a g [f^{' l - 1} ({n e t}_{t}^{l - 1})] (式 4) \end{aligned}

式4就是將誤差項傳遞到上一層的算法。

3. 權重梯度的計算

首先，我們計算誤差函數E對權重矩陣W的梯度 $\frac{\partial E}{\partial W}$ .

上圖展示了前兩步已經計算得到的值，包括每個時刻t循環層的輸出值 $s_{t}$ 以及誤差項 $δ_{t}$ 。

梯度計算算法：只要知道了任意一個時刻的誤差項 $δ_{t}$ ，以及上一個時刻循環層的輸出值 $s_{t - 1}$ ，就可以按照下面的公式求出權重矩陣在t時刻的梯度 $\nabla_{W t} E$ :

\nabla_{W_{t}} E = [\begin{matrix} δ_{1}^{t} s_{1}^{t - 1} & δ_{1}^{t} s_{2}^{t - 1} & . . . & δ_{1}^{t} s_{n}^{t - 1} \\ δ_{2}^{t} s_{1}^{t - 1} & δ_{2}^{t} s_{2}^{t - 1} & . . . & δ_{2}^{t} s_{n}^{t - 1} \\ . \\ . \\ δ_{n}^{t} s_{1}^{t - 1} & δ_{n}^{t} s_{2}^{t - 1} & . . . & δ_{n}^{t} s_{n}^{t - 1} \end{matrix}] (式 5)

我們求得了權重矩陣W在t時刻的梯度

\nabla_{W t} E

，最終的梯度

\nabla_{W} E

是各個時刻的梯度之和（至於爲什麼是“和”，詳細推導見鏈接）：

\begin{aligned} (25) & \nabla_{W} E = & \sum_{i = 1}^{t} \nabla_{W_{i}} E \\ (26) & = & [\begin{matrix} δ_{1}^{t} s_{1}^{t - 1} & δ_{1}^{t} s_{2}^{t - 1} & . . . & δ_{1}^{t} s_{n}^{t - 1} \\ δ_{2}^{t} s_{1}^{t - 1} & δ_{2}^{t} s_{2}^{t - 1} & . . . & δ_{2}^{t} s_{n}^{t - 1} \\ . \\ . \\ δ_{n}^{t} s_{1}^{t - 1} & δ_{n}^{t} s_{2}^{t - 1} & . . . & δ_{n}^{t} s_{n}^{t - 1} \end{matrix}] + . . . + [\begin{matrix} δ_{1}^{1} s_{1}^{0} & δ_{1}^{1} s_{2}^{0} & . . . & δ_{1}^{1} s_{n}^{0} \\ δ_{2}^{1} s_{1}^{0} & δ_{2}^{1} s_{2}^{0} & . . . & δ_{2}^{1} s_{n}^{0} \\ . \\ . \\ δ_{n}^{1} s_{1}^{0} & δ_{n}^{1} s_{2}^{0} & . . . & δ_{n}^{1} s_{n}^{0} \end{matrix}] (式 6) \end{aligned}

式6就是計算循環層權重矩陣W的梯度的公式。

RNN的梯度爆炸和消失問題

不幸的是，前面提到的幾種RNNs都不能很好的處理較長的序列。原因是RNN在訓練中很容易發生梯度爆炸和梯度消失，這導致訓練梯度不能在較長序列中一直傳遞下去，從而使RNN無法捕捉到長距離的影響。（具體原因見鏈接）

處理梯度爆炸：設置一個梯度閾值，當梯度超過這個閾值時可以直接截取。

處理梯度消失：

合理的初始化權重值。初始化權重，使每個神經元儘可能不要取極大值或極小值，以躲開梯度消失的區域。
使用ReLU代替Sigmoid和tanh作爲激活函數。
使用其他結構的RNNs，如長短時記憶網絡（LTSM）和Gated Recurrent Unit（GRU）。

循環神經網絡1—RNN

語言模型

循環神經網絡

基本神經網絡

雙向循環神經網絡

深度循環神經網絡

循環神經網絡的訓練

循環神經網絡的訓練算法：BPTT

1. 前向計算

2. 誤差項的計算

3. 權重梯度的計算

RNN的梯度爆炸和消失問題

2012-NSDI-RDD

常用Linux命令--刪除及清理

常用Linux命令--解壓

本地訪問服務器jupyter notebook

循環神經網絡2--LSTM

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結