記憶網絡之Gated End-To-End Memory Networks

記憶網絡之Gated End-to-End Memory Networks

今天要介紹的論文“gated end-to-end memory networks”時16年10月份發佈的,他是在End-To-End Memory Networks這篇論文的基礎上做了一些修改。因爲End-To-End Memory Networks在multi-fact QA、 positional reasoning、 dialog等領域的效果還不是很好,所以本文參考CV領域中HighWay Networks和Residual Networks涉及到的shortcut connections,引入Gated機制,以實現對memory的正則化,從而讓模型可以動態的修改memory。

因爲End-To-End Memory Networks已經很熟悉了,所以我們先來介紹一下Highway Networks的想法,其主要是在網絡輸出下一層之前引入了一個transform gate T和一個carry Gated C,以讓網絡學習什麼、多少信息應該被傳到下一層。我們假設本層網絡的輸出爲:y=H(x),那麼就加入下面的映射函數:

往往我們會選擇C = 1-T,所以上面的公式可以轉化爲:

而殘差網絡則可以視爲是Highway網絡的一種特例,因爲其直接把T和C都當做I,所以就相當於y=H(x) + x。但是這裏背後的原理我還沒來得及搞明白,爲什麼這樣就可以讓更深的網絡很容易就訓練成功,等有時間再看看相關的論文學習下。

然後我們來看一下如何將其融入到End-To-End Memory Networks中,由於其每個hop的功能都可以視爲u’=H(u),所以對應到上面的公式,u就相當於輸入x,o就相當於輸出y,所以代入上式得:

也就是修改一下原來模型中輸出層的公式即可。然後參數W和b有全局和每個hop獨立兩種方式,後面實驗結果證明,每個hop保持獨立效果會比較好。論文的創新點倒不是很大,只不過是將兩篇論文結合一下,但是看有實驗效果好像還有挺大的提升。最終的模型架構圖如下所示:

實驗結果:

本文所提出的模型不僅僅在bAbI數據集上取得了很好的效果,而且在dialog bAbI對話數據集上也取得了很好的效果。這個數據集應該會在後面的文章中進行介紹,這裏就不贅述了。這裏也貼上兩張實驗結果的圖:

第二張圖揭示得是MemNN與本文提出模型各個hop對每個句子的權重計算,可以看出本文的模型更加集中在最重要的那個句子上面,而MemNN則比較分散,也說明了本文模型效果更好。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章