《A Through Examination of the CNN_Daily Mail Reading Comprehension Task》——Stanford Attentive Reader

  • 論文其他細節不再注意,只關注它的網絡結構。
  • 可能是年代比較久遠,github上只有一個這篇論文的代碼…還是python2.7的

模型結構

在這裏插入圖片描述

  • 模型分三部分:
  • 第一部分,編碼:問題的詞編碼一樣,先通過一個embedding表,把詞編程embedding,然後過雙向GRU,前向和後向連在一起表示這個token出的表示,同樣對問題也編碼,只說了問題編碼後的維度:h,估計和其他論文一樣,都是前向後向的最後一個concat到一起。

在這裏插入圖片描述

  • 第二部分:attention部分,跟其他論文一樣,只是attention的計算方式變了:bilinear term,公式見下:
  • 大概率感覺這個Ws矩陣應該是個變量,需要學習出來。
    在這裏插入圖片描述
  • 第三部分: predict部分,細節在下面的對比裏面說

在這裏插入圖片描述

和 attentive reader對比

第一

  • attention匹配函數不一樣,而且這個變化對於結果好貢獻很大。
    在這裏插入圖片描述

第二

  • 和attentive reader對比,這裏直接用o去預測了,沒有像attentive reader一樣再加上question 的embedding q,並且表現也不差。
    在這裏插入圖片描述

第三

  • 這個模型最後預測時不用整個詞庫,只用了entity的詞庫。
  • 最搞笑的是:加粗那一句,他們說只有第一個是最重要的,其他都是爲了簡化模型,所以模型核心就是換了一個attention 匹配函數,和張俊林大佬說的一樣。
  • The original model considers all the words from the vocabulary V in making predictions. We think this is unnecessary, and only predict among entities which appear in the passage. Of these changes, only the first seems important; the other two just aim at keeping the model simple.

END

  • 本篇完
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章