記憶網絡之Gated End-to-End Memory Networks

今天要介紹的論文“gated end-to-end memory networks”時16年10月份發佈的，他是在End-To-End Memory Networks這篇論文的基礎上做了一些修改。因爲End-To-End Memory Networks在multi-fact QA、 positional reasoning、 dialog等領域的效果還不是很好，所以本文參考CV領域中HighWay Networks和Residual Networks涉及到的shortcut connections，引入Gated機制，以實現對memory的正則化，從而讓模型可以動態的修改memory。

因爲End-To-End Memory Networks已經很熟悉了，所以我們先來介紹一下Highway Networks的想法，其主要是在網絡輸出下一層之前引入了一個transform gate T和一個carry Gated C，以讓網絡學習什麼、多少信息應該被傳到下一層。我們假設本層網絡的輸出爲：y=H(x)，那麼就加入下面的映射函數：

往往我們會選擇C = 1-T，所以上面的公式可以轉化爲：

而殘差網絡則可以視爲是Highway網絡的一種特例，因爲其直接把T和C都當做I，所以就相當於y=H(x) + x。但是這裏背後的原理我還沒來得及搞明白，爲什麼這樣就可以讓更深的網絡很容易就訓練成功，等有時間再看看相關的論文學習下。

然後我們來看一下如何將其融入到End-To-End Memory Networks中，由於其每個hop的功能都可以視爲u’=H(u)，所以對應到上面的公式，u就相當於輸入x，o就相當於輸出y，所以代入上式得：

也就是修改一下原來模型中輸出層的公式即可。然後參數W和b有全局和每個hop獨立兩種方式，後面實驗結果證明，每個hop保持獨立效果會比較好。論文的創新點倒不是很大，只不過是將兩篇論文結合一下，但是看有實驗效果好像還有挺大的提升。最終的模型架構圖如下所示：

實驗結果：

本文所提出的模型不僅僅在bAbI數據集上取得了很好的效果，而且在dialog bAbI對話數據集上也取得了很好的效果。這個數據集應該會在後面的文章中進行介紹，這裏就不贅述了。這裏也貼上兩張實驗結果的圖：

第二張圖揭示得是MemNN與本文提出模型各個hop對每個句子的權重計算，可以看出本文的模型更加集中在最重要的那個句子上面，而MemNN則比較分散，也說明了本文模型效果更好。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

記憶網絡之Gated End-To-End Memory Networks

記憶網絡之Gated End-to-End Memory Networks

推薦2款開源、美觀的WinForm UI控件庫

NET9 AspnetCore將整合OpenAPI的文檔生成功能而無需三方庫

記憶網絡之Neural Turing Machines

深度學習裝機、系統、環境配置指南--預算15000

leetcode題解-binary search題目總結

leetcode題解-606. Construct String from Binary Tree && 657. Judge Route Circle

leetcode題解-410. Split Array Largest Sum

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結