相關論文

《end-to-end memory networks》
《aspect level sentiment classification with deep memory network》
《entity disambiguation with memory network》

第一篇是2015年發表的關於注意力模型應用到NLP上的文章。一作是Sainbayar Sukhbaatar，LeCun的博士生。作者將自己的網絡模型歸結於一種新的循環神經網絡，是對《Neural machine translation by jointly learning to align and translate》中注意力模型的改進，可以應用於QA或者語言模型等需要長期依賴的任務上。

(a)爲單層網絡結構，(b)爲多層網絡結構
單層網絡結構中，首先將Question和Sentences經過Embedding得到各自的向量表示，其中Sentences有兩套Embedding方案。將Question和Sentences的Embedding向量做內積，經過softmax函數得到p向量。然後用p與Sentences的另一種Embedding做內積得到輸出向量o。o與Question相加作爲最後提取出來的信息。

可以將單層網絡進行堆疊得到多層網絡，如圖b中所示。模型需要訓練的參數主要是幾個Embedding向量。在多層網絡訓練時，作者做了兩種Embedding的嘗試。一種Adjacent，一種Layer-wise(RNN-like)。目的是減少模型參數量。之後，作者還提出了一種postition encoding(PE)的概念。在得到m記憶單元的時候融合單詞的位置信息。

第二篇是16年哈工大的一位博士，Duyu Tang所寫。他將第一篇論文的模型應用到了aspect情感分析的任務上。對於給定的句子，和句子中的aspect單詞，判斷單詞的情感。模型如下圖所示。

與第一篇中描述的處理過程相似，首先對sentence和aspect word進行Embedding。利用aspect word和context words得到不同上下文單詞的權重。將得到的權重與aspect word再次進行結合，得到該hop的輸出。
在Attention部分，作者利用單詞的上下文和單詞本身得到句子關於aspect word的表示。讓句子學習關於aspect word重要的是上下文中的哪些單詞。利用如下公式學習得到每個mi的權重。之後經過softmax函數，對權重進行歸一化。

爲了在Attention中加入單詞的位置信息，作者提出了四個模型。其中模型二在後面實驗中驗證有較好的結果，且參數量較少（具體看論文吧）。

第三篇是17年哈工大的一位博士Yaming Sun所寫，利用注意力模型進行實體消歧的任務。模型的基礎也是來自於上兩篇論文。任務是對於給定的指稱(mention)和他的候選實體集(entity)，從中挑出與指稱表達意思最爲相近的實體。

相似度函數使用的是餘弦函數，模型訓練時的損失函數是自己構造的如下所示。博主好奇在訓練的時候是如何使用的。

這幾篇論文是將同一模型用在不同任務之上。工作量比較飽滿，模型描述的也很清楚。網上有人開源了模型的keras版本鏈接。有興趣的同學可以進行試驗，歡迎交流。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

讀論文end-to-end Memory Networks

相關論文

再談23種設計模式（3）：行爲型模式（學習筆記）

Power Automate Desktop 安裝完，登錄後老是提示one driver 錯誤

微前端學習筆記(4):從微前端到微模塊之EMP與hel-micro方案探索

微前端學習筆記（1）：微前端總體架構概述，從微服務發微

985 碩士程序員，空窗 4 個月沒有 Offer！

一文搞懂 Spring 循環依賴

賽博鬥地主——使用大語言模型扮演Agent智能體玩牌類遊戲。

VScode右鍵打開(添加到右鍵)

記一次 .NET某工控視覺自動化系統卡死分析

WindowsServer--SQL Server搭建主從同步實現讀寫分離 - 事務性分發

python kmp算法簡單實現

統計學習方法習題5.2 python實現

條件熵的定義

tensorflow入門2 幾個函數的總結和手寫數字識別

tensorflow入門3 卷積神經網絡、循環神經網絡以及雙向lstm手寫體識別

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結