論文解讀:Semantic Neural Machine Translation using AMR
機器翻譯主要得益於語義表徵能力,爲了緩解數據的稀疏性,作者提出一種神經機器翻譯方法,利用AMR(Abstract Meaning Representation)作爲語義增強,結合LSTM進行端到端的學習。此模型較爲簡單,因此做簡單介紹。
一、簡要信息
序號 | 屬性 | 值 |
---|---|---|
1 | 模型名稱 | semantic-nmt |
2 | 所屬領域 | 自然語言處理 |
3 | 研究內容 | 神經機器翻譯 |
4 | 核心內容 | Att-BiLSTM, AMR,GRN |
5 | GitHub源碼 | https://github.com/freesunshine0316/semantic-nmt |
6 | 論文PDF | https://arxiv.org/abs/1902.07282) |
二、相關背景
絕大多數的機器翻譯工作中,通常使用RNN或CNN用於捕捉句子的語義表徵,通常其獲取的信息量較爲發散(讓神經網絡自己去挖掘句子中詞與詞之間的序列關係),往往機器翻譯的數據非常稀疏,少量的數據容易讓神經網絡產生過擬合的學習,因此絕大多數的神經機器翻譯模型會添加額外的信息用於增強,例如帶有圖像的多模態機器翻譯,結合知識圖譜的機器翻譯等。本文則是利用句子的語法結構來增強機器翻譯。
通常語法結構有依存關係樹,如下圖中(a)所示,其可以分析出主語謂語賓語,構成簡單的事實,比如圖中的事實爲John gave wife present。
另外就是AMR,其是基於依存關係樹生成的圖,其由Banarescu[1]提出。根結點爲(a)中的起始點gave單詞,依次對應相關的名詞,每個葉子結點則表示最終對應的人名、事物或其修飾詞。因爲名詞之間可能會存在語義關係,因此AMR是一個有向圖結構。AMR具體詳細可見參考文獻[1],AMR可以通過一系列的工具包自動生成,例如JAMR。
三、提出的方法
如圖所示:
作者提出的模型主要分爲三個部分,編碼器包含兩個部分分別爲基於注意力的長短期記憶神經網絡(Att-BiLSTM)和基於圖遞歸網絡GRN的AMR編碼器;解析器則爲自迴歸模型。
1、Att-BiLSTM
這一部分想必大家都已經很熟悉了,代碼層面上則是一層帶有LSTM記憶單元的RNN網絡的輸出層通過加權求和形式,輸出爲一個向量(對於一個句子),本文記做。
2、GRN based AMR Encoder
GRN是一種利用時間序列的圖神經網絡,其輸入爲一個拓撲結構 ,包括結點 和邊 。拓撲結構則爲每個句子的AMR圖,每個結點 用向量 表示,初始化時爲0向量。記 表示所有結點向量的集合,或表示爲一個矩陣。
在訓練GNN時,有兩種方法學習每個結點的表示,一種是基於圖卷積網絡GCN,一種是基於圖遞歸網絡GRN,它們分別借鑑了CNN和RNN的思想。本文使用的是GRN網絡,簡單做一個介紹:
第 輪迭代就相當於RNN中的第 個時間序列,每輪迭代主要包括上一輪迭代的隱狀態和當前的外來數據,其中外來數據即爲AMR圖中每個結點的對應的詞向量。
(1)外來數據:爲了保證輸入數據符合拓撲結構,作者定義數據格式:
其中 表示三元組 的向量表示, , 和 分別表示當前的結點 存在(不存在)三元組 中。需要註明的是,上述兩個公式是對結點 的表示,循環所有三元組,只要三元組存在 的累和到 中,否則累和到 中。
(2)上一狀態的隱狀態:
其中 表示上一時刻 的表示,
遞歸公示如圖所示,其本質上是LSTM。
3、Decoder
模型圖可見,當預測某一個句子中的一個單詞時,根據上一個已預測的單詞的隱狀態,有權重的選擇整個原始句子中重要的部份來預測下一個單詞,同時也有權重的選擇最後一個時刻 的AMR圖中重要的結點作爲增強,作者在AMR圖輸出部分和LSTM一樣堆疊了一個Attention,公式如下:
預測部分則爲:,其中 。
參考文獻:
【1】Banarescu, Laura & Bonial, Claire & Cai, Shu & Georgescu, Madalina & Griffitt, Kira & Hermjakob, Ulf & Knight, Kevin & Koehn, Philipp & Palmer, Martha & Schneider, Nathan. (2013). Abstract Meaning Representation for Sembanking. 178-186.
【2】利用AMR進行摘要式文本綜述