Grid Long Short-Term Memory

本文主要引進了Grid LSTM，利用LSTM單元生成一個多維的網格，可以應用於向量，序列或者是更高維的數據例如圖像。
本文是google deepmind發表
It therefore provides a unified way of using LSTM for both deep and sequential computation
本文主要想把RNN做深，不僅僅是序列的，而且還是深層網絡，從維度上下手。主要就是利用LSTM隱層單元，構建一個網絡結構。

這篇文章先講了LSTM原理，又講了stacked LSTM，然後是ｍｕｌｔｉdimensional LSTM，最後引出grid ＬＳＴＭ。
Ｇｒｉｄ　ＬＳＴＭ可以在網絡的任何維度擴展深度。在本文即將提到的序列預測問題中，我們設置了２維的網絡，一個是序列本身，還有沿深度方向的另一維度。這些單元內部的值不能像ｍｕｌｔｉ　ＬＳＴＭ一樣簡單的組合，我們待會會探討一下他們究竟是如何把參數ｃｏｍｂｉｎｅ到一起的。

主要結構：

Ｇｒｉｄ　ＬＳＴＭ跟ｍｕｌｔｉ　ＬＳＴＭ一樣，一個Ｎ維的ｂｌｏｃｋ會接受Ｎ個隱層向量和Ｎ個記憶向量作爲輸入；不一樣的是，ｂｌｏｃｋ輸出的Ｎ個隱層向量和記憶向量是明確的。
計算方法如下：

如果有一維度的向量對於評估整個模型有用，那麼就留下這個向量，只計算其他維度的輸出，然後ｃｏｍｂｉｎｅ成一個向量。
有的維度不需要進行ＬＳＴＭ訓練，經過激活函數。這些節點僅僅象徵性的連接網絡，並無實際性作用。

從多個邊同時輸入。Ｎ個邊有輸入向量，和輸出向量。網格的每個邊都有輸入或者輸入跟它相連。這個機制確保不同邊的隱層向量和記憶向量能夠緊密相連並不需要混合起來。在神經翻譯模型中，我們把輸入ｗｏｒｄｓ跟輸出的ｗｏｒｄｓ分別從ｇｒｉｄ的不同ｓｉｄｅ輸入。

權重共享
能夠消除某些不變形，在翻譯或者圖像模型中，如果ｇｒｉｄ的多個ｓｉｄｅ需要共享權重，我們可以引進ｇｒｉｄ一個新的維度來實現，而不用共享權重。

實驗

本文首先在３個算法任務上進行了實驗，然後對３個實際性任務進行的實驗，包括：字符預測，翻譯和數字圖像分類（這個可以自己實現一下）。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

論文筆記：Grid Long Short-Term Memory

Grid Long Short-Term Memory

實驗

四大卷積網絡發家之路

論文筆記：Is object localization for free?

論文筆記：Grid Long Short-Term Memory

論文筆記：Look and Think Twice

論文筆記：A Global Covariance Descriptor for Nuclear Atypia Scoring in Breast Histopathology Images

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結