打算写一个从RNN到Attention的系列文章，今天先介绍一下循环神经网络RNN和门控循环神经网络LSTM,很多内容为笔者自己的理解，难免有疏漏之处，欢迎大家探讨。
文章有一些修改，因为是在本人的知乎专栏里刘改的，不想来回修改，大家可以去【从RNN到Attention】上篇循环神经网络RNN，门控循环神经网络LSTM

一.为什么RNN比DNN更适合时间序列问题

DNN求解时序问题

对于一个时间序列问题，以单词预测为例，已知 $x_1,x_2,x_3,……,x_t$ ,求解t时刻的单词 $x_{t+1}$ ,那么从概率的角度，该问题可以建模为求解 $argmax_{\theta}P(x_{t+1}|x_{1},x_2,....x_t，\theta)$ ，其中 $\theta$ 为模型参数。如果我们用DNN求解该问题，则模型输入输出可以分别表示为
$X=[x_1,x_2,x_3,……,x_{t-1},x_t]$
$Y=x_{t+1}$

似乎没有什么问题，但是假设一个单词的维度为 $d$ ，则 $X$ 的维度为 $d*t$ ，仅考虑从输入到第一层隐藏层，且隐藏层的维度为 $m$ ，那么其中的参数总量为 $d*t*m$ ，如下图所示，随着t的增长，参数量的增长是非常恐怖的，而且采用这种建模方式， $x_1,x_2,x_3,……x_t$ 对于模型来说是等价的，丢失了他们的时序关系，因此DNN处理时序问题存在

1.参数量过大
2.丢失了时序关系

RNN求解时序问题

RNN的结构如图表示

其中 $x_{i}$ 为输入，对应单词预测问题即为单词的向量表示， $h_{i}$ 为隐含层(hidden layer)，是循环神经网络中特有的网络结构，其中
$\boldsymbol{H}_t = \phi(\boldsymbol{X}_t \boldsymbol{W}{xh} + \boldsymbol{H}_{t-1} \boldsymbol{W}_{hh} + \boldsymbol{b}_h).$
我们从上述式子可以看出:

隐含状态 $H_t$ 与t时刻输入 $x_t$ 和上一时刻的隐含状态 $H_{t-1}$ 有关，而 $H_{t-1}$ 也同样与t-1时刻输入 $x_{t-1}$ 和上上一时刻的隐含状态 $H_{t-2}$ 有关，以此类推， $H_t$ 可以作为t时刻之前的输入和隐藏状态的信息储藏，而由于更近的时刻信息储藏的更加完整，从而既保留了之前的输入信息，同时还保证了他们时序关系。
$X$ 和 $H_{t-1}$ 分别通过两个矩阵乘法与 $H_t$ 相关联。
如果去掉 $\boldsymbol{H}_{t-1} \boldsymbol{W}_{hh}$ ，则上式就是一个全连接。
事实上，我们令 $X^{'}_t=[X_t,H_{t-1}],W^{'}=[W_{xh},W_{hh}]$ ，则上式可以改写为 $H_t= \phi(X^{'}_tW^{'}+b_h)$ ，我们可以通过全连接来实现RNN。
我们来看一下参数量，循环神经网络中的隐含状态与隐藏层作用类似，因此我们可以比较两者的参数量大小，我们假定隐藏层的维度也为m，首先忽略 $b_h$ 因为都是m维，则 $W_{xh}$ 的维度为x的维度d*隐藏层的维度m，即 $d*m$ ， $W_{hh}$ 的维度为 $m*m$ ，因此总的维度为 $(d+m)*m$ ，显然远远小于DNN的 $d*t*m$ ，且与 $t$ 的长度无关！理论上，我们可以将输入的长度拉倒无限长。
我们再来思考一下为什么循环神经网络的参数量与 $t$ 的长度无关呢？因为对于长度为 $t$ 的输入，他们共用了同一个 $W_{xh}$ 和 $W_{hh}$ ，大大减少了参数量。
我们怎么从隐藏层 $h_t$ 得到 $y_t$ 的呢？其实隐藏层 $h_t$ 的作用和DNN中的隐藏层作用类似，我们可以有很多处理方式，比如直接通过softmax求出 $y_t$ 的概率分布，也可以作为一个全连接层的输入，再经过别的操作得到 $y_t$ 。

二、门控循环神经网络LSTM

从上面的介绍我们可以看出RNN的关键在于 $H_t$ 保存之前的信息应用到当前的任务之上，但是 $H_t$ 真的可以做到吗？很难！当时间步距离较大时，循环神经网络在反向传播的过程中的梯度较容易出现衰减或爆炸(详见通过时间反向传播),LSTM(Long Short Term Memory)可以避免上述的长期依赖问题，由于GRU和LSTM类似，基本可以视为LSTM的简化版，在这里就不做赘述。
LSTM的网络结构图如下所示：

如果有小伙伴看过这张图，不知道初次看的时候内心是什么感受，反正我当时是一脸懵逼（卧槽，这什么玩意儿？）仔细研究过后，我发现其实LSTM的整个网络结构可以简述为“三门两细胞”，我们依照这个主线来理解应该会更轻松一些，首先来看“三门”：记忆门，遗忘门和输出门。
$\begin{aligned} \boldsymbol{I}_t &= \sigma(\boldsymbol{X}_t \boldsymbol{W}{xi} + \boldsymbol{H}_{t-1} \boldsymbol{W}_{hi} + \boldsymbol{b}i) \end{aligned}$
$\begin{aligned}\ \boldsymbol{F}_t &= \sigma(\boldsymbol{X}_t \boldsymbol{W}{xf} + \boldsymbol{H}_{t-1} \boldsymbol{W}{hf} + \boldsymbol{b}f),\end{aligned}$
$\begin{aligned}\ \boldsymbol{O}_t &= \sigma(\boldsymbol{X}_t \boldsymbol{W}{xo} + \boldsymbol{H}_{t-1} \boldsymbol{W}{ho} + \boldsymbol{b}_o), \end{aligned}$
这三个门在之后的计算中分别承载了不同的物理意义，计算上和之前RNN中隐藏层的计算差不多，也就是矩阵运算+激活函数，同样用到了前一时刻的隐含变量 $H_{t-1}$ 和当前时刻的输入 $X_t$ ，事实上他们也都可以通过一个全连接表示。
“两细胞”包括候选记忆细胞 $\tilde{\boldsymbol{C}}_t$ 和记忆细胞 $\boldsymbol{C}_t$ 。
候选记忆细胞 $\tilde{\boldsymbol{C}}t$ 的表达式为
$\tilde{\boldsymbol{C}}_t = \text{tanh}(\boldsymbol{X}_t \boldsymbol{W}{xc} + \boldsymbol{H}_{t-1} \boldsymbol{W}_{hc} + \boldsymbol{b}_c)$
它的计算与上面介绍的3个门也类似，但使用了值域在 [−1,1] 的tanh函数作为激活函数。候选记忆细胞 $\tilde{\boldsymbol{C}}t$ 的作用是作为记忆细胞 $\boldsymbol{C}_t$ 的输入。
记忆细胞 $\boldsymbol{C}_t$ 的计算公式为：
$\boldsymbol{C}_t = \boldsymbol{F}_t \odot \boldsymbol{C}_{t-1} + \boldsymbol{I}_t \odot \tilde{\boldsymbol{C}}_t$
其中 $\odot$ 为点乘，此时我们发现在记忆细胞 $\boldsymbol{C}_t$ 的计算公式中，用到了遗忘门 $\boldsymbol{F}_t$ ，并且与前一时刻的记忆细胞 $\boldsymbol{C}_{t-1}$ 做点乘，表达的物理含义是我们希望对之前记忆的遗忘程度，当遗忘门某维度近似1，则该维度上一时刻的记忆被传递到当前记忆细胞，反之则被遗忘。
同样的，对于输入门 $\boldsymbol{I}_t$ ，并且与当前时刻的候选记忆细胞 $\tilde{\boldsymbol{C}}_t$ 做点乘，表达对于当前时刻的候选记忆细胞的接收程度，当输入门某维度近似1，则当前时刻的候选记忆细胞的该维度信息被接收到当前记忆细胞，反之被忽略
我们再来做个比较，其实它和RNN的公式 $\boldsymbol{H}_t = \phi(\boldsymbol{X}_t \boldsymbol{W}{xh} + \boldsymbol{H}_{t-1} \boldsymbol{W}_{hh} + \boldsymbol{b}_h).$ 很相似， $\boldsymbol{F}_t$ 类似于 $\boldsymbol{W}_{t-1}$ ，都是对于历史数据的处理，输入门 $\boldsymbol{I}_t$ 和 $\boldsymbol{W}_{hh}$ 类似，都是表达对于输入的处理，不同的是 $\boldsymbol{F}_t$ 和 $\boldsymbol{I}_t$ 是做点乘，另外二者为矩阵乘法。
最后隐藏层的输出为
$\boldsymbol{H}_t = \boldsymbol{O}_t \odot \text{tanh}(\boldsymbol{C}_t).$
同样是点乘， $\boldsymbol{O}_t$ 是物理含义是对于输出的筛选，当输出门某维度近似1时，记忆细胞将该维度的信息传递到隐藏层供输出层使用；当输出门近似0时，则该维度的信息无法传递到隐藏层。
我们最后再总结一下LSTM的整个设计思想

当前输入 $X_t$ 和前一时刻的隐含状态 $H_{t-1}$ 生成输入门 $I_t$ 、输出门 $O_t$ 和遗忘门 $F_t$ ，以及候选记忆细胞 $\tilde{\boldsymbol{C}}_t$
候选记忆细胞 $\tilde{\boldsymbol{C}}_t$ 和输入门 $I_t$ 控制当前时刻对于记忆细胞 $\boldsymbol{C}_t$ 输入，遗忘门 $F_t$ 和前一时刻的记忆细胞 $\tilde{\boldsymbol{C}}_{t-1}$ 控制记忆细胞历史时刻的输入，注意这里是点乘
记忆细胞 $\boldsymbol{C}_t$ 和输出门 $O_t$ 控制隐藏层，注意这里也是点乘

【机器学习】从RNN到Attention上篇循环神经网络RNN，门控循环神经网络LSTM

一.为什么RNN比DNN更适合时间序列问题

DNN求解时序问题

RNN求解时序问题

二、门控循环神经网络LSTM

POJ 1338 & UVA 136

POJ 1005 & ZOJ 1049 & UVA 2363

ZOJ 2739 & UVA 3399

ubuntu 16.04 安裝 xgboost python運行環境

統計學習方法筆記，第一章，統計學系方法概論

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

【机器学习】从RNN到Attention上篇 循环神经网络RNN，门控循环神经网络LSTM

一.为什么RNN比DNN更适合时间序列问题

DNN求解时序问题

RNN求解时序问题

二、门控循环神经网络LSTM

【机器学习】从RNN到Attention上篇循环神经网络RNN，门控循环神经网络LSTM