基於LSTM的seq2seq模型介紹以及相應的改進

簡介

DNN模型在語言識別等任務上具有強大的能力,主要是因爲DNN可以在適當步驟中進行並行計算,儘管DNN很靈活並很有用,但是DNN只能用於固定維度的輸入以及輸出的任務中,並且輸入以及輸出已知。因此,Ilya sutskever .et提出了基於LSTM模型的端到端的架構。其中用一個LSTM作爲encoder,得到一個基於時間序列的向量表示,另外,用另一個LSTM網絡作爲decoder,從向量中抽取出sequence。

seq2seq

這裏寫圖片描述

LSTM一個屬性是將變長的sequence映射到一個固定長度的向量中去,在訓練中,可以使用SGD對模型進行訓練,另外,在訓練中,可以將encoder的輸入sequence倒序輸入,在Ilya sutskever .et試驗中,這種方法表現更好。
下面是幾個改進的地方:
這裏寫圖片描述

實驗

實驗參數

這裏寫圖片描述

這裏寫圖片描述

鏈接:
《sequence to sequence Learning with Neural network》
《A Neural Conversational Model》

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章