seq2seq 的 keras 實現

原創

shejiangao

2019-10-26 04:54

原文鏈接：https://www.jianshu.com/p/c294e4cb4070

上一篇 seq2seq 入門提到了 cho 和 Sutskever 的兩篇論文，今天來看一下如何用 keras 建立 seq2seq。

第一個 LSTM 爲 Encoder，只在序列結束時輸出一個語義向量，所以其 "return_sequences" 參數設置爲 "False"

使用 "RepeatVector" 將 Encoder 的輸出(最後一個 time step)複製 N 份作爲 Decoder 的 N 次輸入

第二個 LSTM 爲 Decoder，因爲在每一個 time step 都輸出，所以其 "return_sequences" 參數設置爲 "True"

from keras.models import Sequential
from keras.layers.recurrent import LSTM
from keras.layers.wrappers import TimeDistributed
from keras.layers.core import Dense, RepeatVector

def build_model(input_size, max_out_seq_len, hidden_size):
    
    model = Sequential()
    
    # Encoder(第一個 LSTM)     model.add( LSTM(input_dim=input_size, output_dim=hidden_size, return_sequences=False) )
    
    
    model.add( Dense(hidden_size, activation="relu") )
    
    # 使用 "RepeatVector" 將 Encoder 的輸出(最後一個 time step)複製 N 份作爲 Decoder 的 N 次輸入
    model.add( RepeatVector(max_out_seq_len) )
    
    # Decoder(第二個 LSTM) 
    model.add( LSTM(hidden_size, return_sequences=True) )
    
    # TimeDistributed 是爲了保證 Dense 和 Decoder 之間的一致
    model.add( TimeDistributed(Dense(output_dim=input_size, activation="linear")) )
    
    model.compile(loss="mse", optimizer='adam')

    return model

也可以用 GRU 作爲 RNN 單元，代碼如下，區別就是將 LSTM 處換成 GRU：

from keras.layers.recurrent import GRU
from keras.layers.wrappers import TimeDistributed
from keras.models import Sequential, model_from_json
from keras.layers.core import Dense, RepeatVector    

def build_model(input_size, seq_len, hidden_size):
    """建立一個 sequence to sequence 模型"""
    model = Sequential()
    model.add(GRU(input_dim=input_size, output_dim=hidden_size, return_sequences=False))
    model.add(Dense(hidden_size, activation="relu"))
    model.add(RepeatVector(seq_len))
    model.add(GRU(hidden_size, return_sequences=True))
    model.add(TimeDistributed(Dense(output_dim=input_size, activation="linear")))
    model.compile(loss="mse", optimizer='adam')

    return model

上面是一個最簡單的 seq2seq 模型，因爲沒有將 Decoder 的每一個時刻的輸出作爲下一個時刻的輸入。

當然，我們可以直接用 keras 的 seq2seq 模型：

https://github.com/farizrahman4u/seq2seq

下面是幾個例子：

簡單的 seq2seq 模型：

import seq2seq
from seq2seq.models import SimpleSeq2Seq

model = SimpleSeq2Seq(input_dim=5, hidden_dim=10, output_length=8, output_dim=8)
model.compile(loss='mse', optimizer='rmsprop')

深度 seq2seq 模型：encoding 有 3 層, decoding 有 3 層

import seq2seq
from seq2seq.models import SimpleSeq2Seq

model = SimpleSeq2Seq(input_dim=5, hidden_dim=10, output_length=8, output_dim=8, depth=3)
model.compile(loss='mse', optimizer='rmsprop')

encoding 和 decoding 的層數也可以不同：encoding 有 4 層, decoding 有 5 層

import seq2seq
from seq2seq.models import SimpleSeq2Seq

model = SimpleSeq2Seq(input_dim=5, hidden_dim=10, output_length=8, output_dim=20, depth=(4, 5))
model.compile(loss='mse', optimizer='rmsprop')

上面幾種也是最簡單的 SimpleSeq2Seq 的應用。

在論文 Sequence to Sequence Learning with Neural Networks 給出的 seq2seq 中，encoder 的隱藏層狀態要傳遞給 decoder，而且 decoder 的每一個時刻的輸出作爲下一個時刻的輸入，而且這裏內置的模型中，還將隱藏層狀態貫穿了整個 LSTM：

import seq2seq
from seq2seq.models import Seq2Seq

model = Seq2Seq(batch_input_shape=(16, 7, 5), hidden_dim=10, output_length=8, output_dim=20, depth=4)
model.compile(loss='mse', optimizer='rmsprop')

cho 的這篇論文 Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation 中的 seq2seq 模型實現爲：decoder 在每個時間點的語境向量都會獲得一個 'peek'

import seq2seq
from seq2seq.models import Seq2Seq

model = Seq2Seq(batch_input_shape=(16, 7, 5), hidden_dim=10, output_length=8, output_dim=20, depth=4, peek=True)
model.compile(loss='mse', optimizer='rmsprop')

在論文 Neural Machine Translation by Jointly Learning to Align and Translate 中帶有注意力機制的 seq2seq：沒有隱藏狀態的傳播，而且 encoder 是雙向的 LSTM

import seq2seq
from seq2seq.models import AttentionSeq2Seq

model = AttentionSeq2Seq(input_dim=5, input_length=7, hidden_dim=10, output_length=8, output_dim=20, depth=4)
model.compile(loss='mse', optimizer='rmsprop')

參考：
https://github.com/farizrahman4u/seq2seq
http://www.zmonster.me/2016/05/29/sequence_to_sequence_with_keras.html
http://jacoxu.com/encoder_decoder/

推薦閱讀歷史技術博文鏈接彙總
 http://www.jianshu.com/p/28f02bb59fe5
也許可以找到你想要的

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

seq2seq 的 keras 實現

MySQL 分庫分表方案，總結太全了。。

Qt/C++音視頻開發71-指定mjpeg/h264格式採集本地攝像頭/存儲文件到mp4/設備推流/採集推流

WPF開源輕便、快速的桌面啓動器

Python 批量調整圖片大小

LSTM 生成文章

日期分區間方法

理解LSTM（通俗易懂版）

一組數字按連續數字分區間

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結