RNN,GRU,LSTM及其变种详解

原創

2020-07-03 00:59

文章目录

参考Coursera-Sequence Models
https://www.coursera.org/learn/nlp-sequence-models/notebook/X20PE/building-a-recurrent-neural-network-step-by-step

1. 普通神经网络的缺点

对于不同的样本，输入输出的长度可能不同
无法共享序列中不同位置的信息

2. RNN的基本结构与数学表达

输入层的维数是 $(n_x,m,T_x)$ ,其中 $n_x$ 是每个训练样本的维数，例如输入词one-hot向量的大小，也即词典大小； $m$ 是一个batch的大小； $T_x$ 是输入序列的长度。

输出层的维数是 $(n_y,m,T_y)$ ,其中 $n_y$ 是输出预测向量的维数； $m$ 是一个batch的大小； $T_y$ 是输出序列的长度。

我们先研究输入向量和输出向量相等，即 $n_x=n_y$ 的情况。

图2.1 RNN基本结构-输入输出维数相等

上下标说明： $a_5^{(2)[3]<4>}$ 表示第2个训练样本，第3层，第4个时刻，激活函数输出向量的第5维。

图2.2 RNN的一个基本单元

注意，输出 $\hat y$ 是状态向量 $a$ 经过线性变换再经过softmax变换得到的。

$\begin{aligned} a^{\langle t\rangle}&=tanh\left(W_{ax}x^{\langle t\rangle}+W_{aa}a^{\langle t-1\rangle}+b_a\right)\\ \hat y^{\langle t\rangle}&=softmax\left(W_{ya}a^{\langle t\rangle}+b_y\right)\\ \tag{2-1} \end{aligned}$

3. GRU(Gated Recurrent Unit)

GRU的提出是为了解决RNN难以学习到输入序列中的长距离信息的问题。
GRU引入一个新的变量——记忆单元，简称 $C$ 。 $C^{\langle t\rangle}$ 其实就是 $a^{\langle t\rangle}$
$C$ 的表达式不是一步到位的，首先定义 $C$ 的候选值 $\tilde C$ :
$\tilde C^{\langle t\rangle}=tanh\left(W_c[C^{\langle t-1\rangle},x^{\langle t\rangle}]+b_c\right)$
更新门：
$\Gamma_u=\sigma\left(W_u[C^{\langle t-1\rangle},x^{\langle t\rangle}]+b_u\right)$
在实际训练好的网络中 $\Gamma$ 要么很接近1要么很接近0，对应着输入序列里面有些元素起作用有些元素不起作用。
$C^{\langle t\rangle}=\Gamma_u*\tilde C^{\langle t\rangle}+（1-\Gamma_u）* C^{\langle t-1\rangle}$

也即输入序列的有些元素，记忆单元不需要更新，有些元素需要更新。

The cat, which already ate …, was full
cat后面的词直到was之前，都不需要更新 $C$ ,直接等于cat对应的 $C$
可以解决梯度消失的问题.输出层的梯度可以传播到cat处

注： $C$ 和 $\Gamma$ 都可以是想聊，它们在相乘时采用的是element-wise的乘法。当为向量时，与cat的单复数无关的词对应的 $\Gamma$ 可能有些维度为零，有些维度不为零。为零的维度，是用来保留cat的单复数信息的；不为零的维度可能是保留其他语义信息的，比如是不是food呀之类的
目前讨论的是简化版的GRU，结构图如下

完整的GRU：

$\begin{aligned} \tilde C^{\langle t\rangle}&=tanh\left(W_c[\Gamma_r*C^{\langle t-1\rangle},x^{\langle t\rangle}]+b_c\right)\\ \Gamma_u&=\sigma\left(W_u[C^{\langle t-1\rangle},x^{\langle t\rangle}]+b_u\right)\\ \Gamma_r&=\sigma\left(W_r[C^{\langle t-1\rangle},x^{\langle t\rangle}]+b_r\right)\\ C^{\langle t\rangle}&=\Gamma_u*\tilde C^{\langle t\rangle}+（1-\Gamma_u）* C^{\langle t-1\rangle}\\ a^{\langle t\rangle}&=C^{\langle t\rangle}\\ \tag{3-1} \end{aligned}$
$\Gamma_r$ 表示了 $\tilde C^{\langle t\rangle}$ 和 $C^{\langle t-1\rangle}$ 之间的相关程度

4 LSTM(Long Short-Term Memory)

没有了 $\Gamma_r$ ，将 $1-\Gamma_u$ 用 $\Gamma_f$ 代替
$\begin{aligned} \tilde C^{\langle t\rangle}&=tanh\left(W_c[a^{\langle t-1\rangle},x^{\langle t\rangle}]+b_c\right)\\ \Gamma_u&=\sigma\left(W_u[a^{\langle t-1\rangle},x^{\langle t\rangle}]+b_u\right)\\ \Gamma_f&=\sigma\left(W_f[a^{\langle t-1\rangle},x^{\langle t\rangle}]+b_f\right)\\ \Gamma_o&=\sigma\left(W_o[a^{\langle t-1\rangle},x^{\langle t\rangle}]+b_o\right)\\ C^{\langle t\rangle}&=\Gamma_u*\tilde C^{\langle t\rangle}+\Gamma_f* C^{\langle t-1\rangle}\\ a^{\langle t\rangle}&=\Gamma_o*tanh\left(C^{\langle t\rangle}\right)\\ \tilde y^{\langle t\rangle}&=softmax(a^{\langle t\rangle})\\ \tag{4-1} \end{aligned}$
(注意公式里面的 $\Gamma_u$ 等价于图片中的 $\Gamma_i$ )

图4.1 LSTM的一个基本单元

图4.2 标准LSTM模型-输入维数等于输出维数]

4.1. peephole连接

图4.3 LSTM变种-peephole

5. RNN的反向传播

$dL/di=dL/da\cdot da/dz\cdot dz/di$

5. RNN实战技巧

5.1. 对梯度的范围进行限制

在反向传播的过程中，为了避免梯度爆炸，可以对梯度的值进行限制，具体来说，可以给定一个区间[-a,a],小于-a的值强行定为-a，大于a的值强行定为a

5.2. 对输出值进行采样

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

RNN,GRU,LSTM及其变种详解

文章目录

1. 普通神经网络的缺点

2. RNN的基本结构与数学表达

3. GRU(Gated Recurrent Unit)

4 LSTM(Long Short-Term Memory)

4.1. peephole连接

5. RNN的反向传播

5. RNN实战技巧

5.1. 对梯度的范围进行限制

5.2. 对输出值进行采样

Android启动过程-万字长文(Android14)

【SQL进阶】CASE语句的使用

optional install error: Error: Unsupported URL Type: npm:vue-loader@^16.1.0

这种嵌套字典类型的数据，我想把它读取到df里，如何操作？

微调真的能让LLM学到新东西吗:引入新知识可能让模型产生更多的幻觉

iNeuOS工业互联网操作系统，增加电力IEC104协议

微服务实践k8s&dapr开发部署实验（3）订阅发布

chromedriver版本

kbgressdb之数据结构V0.2

NLP基礎之詞向量（Word2Vector）

RNN,GRU,LSTM及其變種詳解

排序模型入門詳解

nlp基礎之語言模型

隱馬爾科夫模型(HMM)入門詳解

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結