Seq2Seq and Attention 入門

原創

2019-04-16 18:47

Seq2Seq and Attention

參考文獻

[1] Cho 在 2014 年在論文《Learning Phrase Representations using RNN Encoder–Decoder
for Statistical Machine Translation》中提出 Encoder–Decoder 結構

[2] Sutskever et al 2014年在論文《Sequence to Sequence Learning with Neural Networks》中正式提出seq2seq的概念

[3] Dzmitry Bahdanau, Kyunghyun Cho, Yoshua Bengio.在論文
《Neural Machine Translation by Jointly Learning to Align and Translate》 ICLR 2015.中提出BahdanauAttention Mechanism。

[4] Minh-Thang Luong, Hieu Pham, Christopher D. Manning.在論文
《”Effective Approaches to Attention-based Neural Machine Translation.”
EMNLP 2015.》中提出LuongAttention Mechanism.

1. Seq2Seq model

seq2seq的名字全稱是序列到序列（sequence to sequence）, 從一個序列到另一個序列，可以是從中文的序列到英文的序列，也可以是從中文語音序列到中文文字序列，總之，實現的是從一個不定長輸入序列到一個不定長輸出序列的模型。

1.1 Encoder-Decoder model

要實現從一個序列到另外一個序列的轉換，正常思維邏輯是找到一箇中間編碼，可以實現在兩種序列之間實現自由轉換。於是乎，Encoder-Decoder結構在2014年被Cho提了出來, 先通過編碼器對原序列進行編碼，再通過解碼器對中間編碼進行解碼得到輸出序列。

Figure 1 爲Encoder-Decoder結構示意圖，Encoder框中是一個正常的Rnn結構，輸入序列 $(x1,x2,...,xT)$ ，輸出 $C$ 。 $C$ 是上文中說到的中間序列。Decoder框中同樣爲Rnn結構, 其輸入是中間編碼 $C$ ，輸出爲輸出序列 $(y1,y2,...,yT)$ 。

這裏Decoder部分的Rnn和Encoder部分的Rnn稍有不同。
Encoder的Rnn爲正常使用，由上一時刻隱狀態 $h_{t-1}$ 和該時刻輸入 $x_{t}$ 進行隱狀態更新，公式爲:
$h_{t} = f(h_{t-1}, x_{t})$
Decoder的Rnn在 $t$ 時刻的輸出由 $t$ 時刻的隱藏狀態 $s_{t}$ 、 $t-1$ 時刻的輸出 $y_{t-1}$ 和 $C$ 計算得出，公式爲：
$P(y_{t}| y_{t-1}, y_{t-2}, ..., y_{1}, C) = g(s_{t}, y_{t-1}, C)$
Encoder和Decoder的訓練目標是最大化條件概率分佈：
$max_{\theta} \frac{1}{N} \displaystyle\sum_{n=1}^N logP_{\theta}(y_{n}|x_{n})$
模型參數爲 $θ$ ,出現 $x_{n}$ 時 $y_{n}$ 的條件概率是 $P(y_{n}|x_{n})$ ， $logP$ 是單調遞增的，更容易計算，將 $N個P$ 加起來求平均，就是最終的優化目標，輸出序列輸出幾個符號， $N$ 就是幾
這裏不懂的可以看博客：語言模型：馬爾可夫模型

2. Attention

Seq2Seq中Encoder通過 $C$ 將信息傳給Decoder, $C$ 承載的是訓練數據中序列的信息，而 $C$ 僅僅是Rnn隱藏序列的最後一個，表達的是整個序列的信息。而如果想要更好的結果，將Encoder序列的所有隱藏狀態都給Decoder顯然更好，因此 $C$ 可以是Encoder所有時刻的隱藏狀態之和，此時的 $C$ 表示Encoder 中又包含了各個詞的隱藏信息；當然，在解碼時生成某一個詞有時候並不需要依賴輸入序列所有的詞的信息，此時，只要給Encoder每個時刻隱藏狀態一個權值，再相加，就可以得到生成指定詞最適合的編碼信息了，換種說法就是當生成某個詞的時候我們的注意力只放在那些對它有用的詞信息上。這就是注意力機制的邏輯。

2.1 Bahdanau Attention Mechanism

先來介紹Bahdanau在2015年提出的attention mechanism。

同樣，Decoder通過計算條件概率分佈的方式來預測輸出：
$P(y_{i}| y_{i-1}, y_{i-2}, ..., y_{1}, X) = g(s_{i}, y_{i-1}, c_{i})$
注意：Encoder-Decoder中的 $C$ 是固定不變得信息，而這裏 $c_{i}$ 是一個變化信息，稱爲第 $i$ 個輸出詞的對應的輸入上下文向量，同樣代表輸入句子的表徵，不同時刻注意力集中在不同的詞上面。

狀態 $s_{i}$ 是 $i$ 時刻Decoder Rnn的隱藏狀態：
$s_{i} = f(s_{i-1}, y_{i-1}, c_{i})$

上下文向量 $c_{i}$ 由輸入序列的隱藏層狀態 $h_{1},...,h_{T}$ 產生。每個 $h_{i}$ 包含整個序列的信息的同時更多的關注第 $i$ 個詞的上下文信息。 $c_{i}$ 的計算：
$c_{i} = \displaystyle\sum_{j=1}^T \alpha_{ij}h_{j}$
這裏的 $\alpha_{ij}$ 是每個 $h_{j}$ 的權重得分,範圍爲（0，1）：
$\alpha_{ij} = \frac{exp(e_{ij})}{\displaystyle\sum_{k=1}^T exp(e_{ik})}$
$e_{ij} = a(s_{i-1}, h_{j})$

$e_{ij}$ 爲Decoder $(i−1)$ 位置的隱藏狀態 $s_{i-1}$ 和Encoder中 $j$ 位置的隱藏狀態 $h_{j}$ 經過計算方式 $a$ 得到的分值。
$a$ 的計算方式爲：
$a = v_a^T tanh(W_{a}s_{i-1}+U_{a}h_{j})$
這裏的 $W_a和U_{a}$ 爲參數矩陣，作爲可訓練參數加入整個網絡，所以attention也相當於是一層網絡， $W_a和U_{a}$ 是這層網絡的參數，所以attention的參數矩陣也是可以訓練得到的。
網絡經過訓練可以學習到：解碼器在輸出一個序列元素時，哪些編碼器信息更有價值，更值得被關注，這就是注意力機制的通俗解釋。

2.2 Luong Attention Mechanism

Luong 在論文4中提出一種 $a$ （對齊函數）的新計算方式，
$a = v_a^T tanh(W_{a}s_{i}+U_{a}h_{j})$
需要注意的是在Luong提出的Attention Mechanism中，是通過Decoder $i$ 時刻的隱藏層狀態 $s_{i}$ 和encoder的隱藏層狀態 $h_{j}$ 來確定 $a$ 的值，而在Bahdanau中是通過Decoder $(i−1)$ 時刻的隱藏狀態 $s_{i-1}$ 和Encoder中 $j$ 位置的隱藏狀態 $h_{j}$ 經過計算。

轉載自：https://blog.csdn.net/ilikede/article/details/81035889#commentBox

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Seq2Seq and Attention 入門

Seq2Seq and Attention

參考文獻

1. Seq2Seq model

1.1 Encoder-Decoder model

2. Attention

2.1 Bahdanau Attention Mechanism

2.2 Luong Attention Mechanism

vue項目獲取富文本編輯器wangEditor內容導出爲word（html轉word格式並下載）

dotnet C# 創建 X11 應用時設置窗口背景顏色

Navicat安裝與激活教程

TDengine docker安裝方法

vue3組件通信與props

sapui5

Alpine Linux apk add DNS lookup error

部分JDK版本的發佈時間

工作中用到的腳本合集

合併代碼時Beyond Compare設置

TensorFlow常用函數介紹

圖解Transformer(轉)

jupyter notebook添加conda中的環境

TensorFlow2.0中的@tf.function的作用(轉載)

Numpy中的行向量與列向量

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結