論文筆記:Grid Long Short-Term Memory

Grid Long Short-Term Memory


本文主要引進了Grid LSTM,利用LSTM單元生成一個多維的網格,可以應用於向量,序列或者是更高維的數據例如圖像。
本文是google deepmind發表
It therefore provides a unified way of using LSTM for both deep and sequential computation
本文主要想把RNN做深,不僅僅是序列的,而且還是深層網絡 ,從維度上下手。主要就是利用LSTM隱層單元,構建一個網絡結構。

這篇文章先講了LSTM原理,又講了stacked LSTM,然後是multidimensional LSTM,最後引出grid LSTM。
Grid LSTM可以在網絡的任何維度擴展深度。在本文即將提到的序列預測問題中,我們設置了2維的網絡,一個是序列本身,還有沿深度方向的另一維度。這些單元內部的值不能像multi LSTM一樣簡單的組合,我們待會會探討一下他們究竟是如何把參數combine到一起的。

主要結構:
這裏寫圖片描述
這裏寫圖片描述
這裏寫圖片描述
Grid LSTM跟multi LSTM一樣,一個N維的block會接受N個隱層向量和N個記憶向量作爲輸入;不一樣的是,block輸出的N個隱層向量和記憶向量是明確的。
計算方法如下:
這裏寫圖片描述
如果有一維度的向量對於評估整個模型有用,那麼就留下這個向量,只計算其他維度的輸出,然後combine成一個向量。
有的維度不需要進行LSTM訓練,經過激活函數。這些節點僅僅象徵性的連接網絡,並無實際性作用。

從多個邊同時輸入。N個邊有輸入向量,和輸出向量。網格的每個邊都有輸入或者輸入跟它相連。這個機制確保不同邊的隱層向量和記憶向量能夠緊密相連並不需要混合起來。在神經翻譯模型中,我們把輸入words跟輸出的words分別從grid的不同side輸入。

權重共享
能夠消除某些不變形,在翻譯或者圖像模型中,如果grid的多個side需要共享權重,我們可以引進grid一個新的維度來實現,而不用共享權重。

實驗

本文首先在3個算法任務上進行了實驗,然後對3個實際性任務進行的實驗,包括:字符預測,翻譯和數字圖像分類(這個可以自己實現一下)。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章