多標籤分類:NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE

文章地址:https://arxiv.org/pdf/1409.0473.pdf

文章標題:NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE(通過聯合學習來對齊和翻譯的神經機器翻譯)2014

寫在前面:本文第一次將注意力機制引入了NLP領域,本文提出的新型Seq2Seq架構爲基於Seq2Seq的多標籤學習提供新的思路。

摘要

神經機器翻譯是近年來提出的一種機器翻譯方法。與傳統的統計機器翻譯不同,神經機器翻譯的目的是建立一個單一的神經網絡,可以聯合調整,以最大限度地提高翻譯性能。最近提出的用於神經機器翻譯的模型通常屬於編碼器-解碼器家族,它們將源語句編碼成固定長度的向量,然後由解碼器生成翻譯。在本文中,我們推測,使用一個固定長度的向量是改善這個基本的性能瓶頸encoder-decoder架構,並提出自動擴展這個通過允許一個模型(軟)搜索部分源相關的句子預測目標詞,沒有形成硬段明確這些部分。採用這種新方法,我們的翻譯效果可與現有最先進的基於短語的英法翻譯系統相媲美。此外,定性分析表明,該模型得到的(軟)對齊與我們的直覺非常吻合。

一、INTRODUCTION

神經機器翻譯的目標是建立並訓練一個可以讀取一個句子並輸出正確的翻譯的單一的、大型的的神經網絡。

很多提出的神經機器翻譯都屬於encoder-decoder。

一個解碼神經網絡讀取和編碼一個原序列爲一個定長的向量。解碼器輸出編碼向量的翻譯。整個encoder-decoder系統,是由一個語言對的編碼器和解碼器組成的,它可以被整合訓練來提高給定源句被正確翻譯的概率。

這種encoder-decoder方法有一個潛在的問題是,神經網絡需要將源句所有的必要信息壓縮成定長的向量。這可能使神經網絡難以處理長句子,尤其是那些比訓練語料庫中更長的句子。Cho(2014)發現,隨着輸入句子長度的增加,基本的encoder-decoder的性能會迅速下降

爲了解決這一問題,我們引入了一種對encoder-decoder模型的拓展。每當生成的模型在翻譯中生成一個單詞的時候,它會 (soft-)search 源句中最相關信息集中的位置。然後,該模型根據與源句位置相關的上下文向量和之前產生的所有目標詞來預測目標詞。

這些方法與基本的encoder-decoder最大的區別是它不試圖將整個輸入序列編碼成一個定長的向量。相反,它將輸入序列編碼成向量,然後當解碼翻譯的時候自適應地選擇向量的子集。這使得神經翻譯模型避免把源句的所有信息,不管它的長度,壓扁成一個定長的向量。我們發現這可以讓模型更好的處理長句子。

在這篇論文中,我們證明了提出的聯合學習對齊和翻譯的方法比基本的編譯碼方法獲得了顯著的翻譯性能改善。

二、BACKGROUND: NEURAL MACHINE TRANSLATION

翻譯等價於找到給定的源句x時最大的條件概率y對應的目標句y,arg{max}_{y}P(y|x)。

神經機器翻譯方法通常由兩個部分組成,第一個是編碼原序列,第二個是解碼到目標序列。

注:編碼器是一個雙向(正向+反向)門控循環單元(BiGRU)。解碼器是一個GRU,其初始隱藏狀態是從反向編碼器GRU的最後隱藏狀態修改而來的向量。

2.1 RNN ENCODER–DECODER

我們建立了一個新的架構,可以同時學習對齊翻譯
在這裏插入圖片描述

上圖中,encoder將向量x的序列x=(x1,…,xT)轉換成向量c。ht是 t 時刻的隱藏狀態,c是由隱藏狀態產生的向量,f 和 s 是一些非線性函數。

在這裏插入圖片描述
上圖中,解碼器通常被訓練用來預測下一個單詞 yt,文本向量c和所有之前預測過的單詞 { y1,…,yt-1 } 。這裏g是非線性的,可能是多層的函數,它的輸出是y_{t}的概率,s_{t}是RNN的隱層狀態。

三、LEARNING TO ALIGN AND TRANSLATE

新的框架由一個雙向的RNN作爲編碼器(3.2)和一個在解碼翻譯時対源句模擬搜索的解碼器組成(3.1)。

3.1 DECODER: GENERAL DESCRIPTION(一般的描述)

在這裏插入圖片描述
上圖解釋了本文所提出的模型,給定源句子(x1,…,xt)嘗試生成第t個目標字yt的過程。
在這裏插入圖片描述
si是i時刻RNN的隱層狀態。

不同於現有的encoder-decoder方法,這裏的概率是有一個對每個目標詞 yi不同的上下文向量 ci決定的。

上下文向量 ci 取決於由編碼器映射的輸入序列的註釋序列(h1,…,hT),每個註釋 hi 包含整個輸入序列的信息,特別是輸入序列的第i個單詞周圍的部分。
在這裏插入圖片描述
上下文向量 ci 是通過計算所有註釋的加權和。

每個註釋 hi 的 權重 aij 的計算方法:在這裏插入圖片描述
在這裏插入圖片描述
這裏 eij = a(si-1,hj) 是對齊模型,它可以評估 位置 j 附近的輸入和位置 i 的輸出的匹配程度。得分基於RNN隱層狀態 si-1 和 輸入序列的第 j 個註釋 hj 來判斷的。

我們把對齊模型 a 參數化爲一個前饋神經網絡,該神經網絡與系統中的其他組件聯合訓練。

對齊不被認爲是一個潛在的向量。相反,對齊模型直接計算軟對齊,從而可以使代價函數的梯度反向傳播。該梯度可用於聯合訓練對齊模型和整個翻譯模型。

這種將所有註釋的加權和作爲計算一種預期註釋的方法,這裏的期望基於可能的對齊。aij是目標詞 yi 是由源詞 xj對齊,或者翻譯過來的概率。那麼,第 i 個上下文向量 ci 是所有具有概率 aij 的註釋中的期望註釋。

概率aij ,或者其相關的能量eij,反映了註釋hj的在決定下一個狀態si-1和生成yi時,過去的隱藏狀態si-1的重要程度。直觀的來說,在解碼階段實現了一種注意力機制。解碼器決定源句的關注部分。通過讓解碼器具有注意力機制,我們減輕了要將源句中所有信息編碼成一個定長向量的負擔。用這種新方法,信息可以在註釋序列中擴散,相應的解碼器可以選擇性的檢索這些註釋。

3.2 ENCODER: BIDIRECTIONAL RNN FOR ANNOTATING SEQUENCES(用於註釋序列的雙向RNN)

在我們提出的方案中,我們希望每個單詞註釋不僅要總結之前單詞,還能總結之後的單詞。因此,我們提出採用雙向的RNN(biRNN,1997)。

一個BiRNN包括前向和後向RNN。

我們將前向隱層狀態和後向隱層狀態聯繫起來,得到每個單詞 xj 的註釋。用這樣的方法,註釋hj 既能總結前面的單詞又能總結後面的單詞。因爲RNN傾向於很好的表現最近的輸入,註釋 hj 就會更集中單詞 xj 的註釋。

四、EXPERIMENT SETTINGS

4.1 DATASET

4.2 MODELS

我們訓練了兩種模型。一種是Cho2014年提出的RNN Encoder-Decoder(RNNencdec),另一個本文提出的模型,我們稱之爲RNNsearch。每個模型訓練兩次:先用長度爲30個單詞的句子訓練(RNNencdec-30,RNNsearch-30),然後用長度爲50的句子訓練(RNNencdec-50,RNNsearch-50)。

RNNencdec的編碼器和解碼器有1000個隱層單元。RNNsearch的編碼器由前向和後向RNN組成,每個RNN有1000個隱層單元。在這兩種情況下,我們都採用了有帶有single maxout的隱層組成的多層網絡來計算每個目標詞的條件概率。

我們和Adadelta(Zeiler,2012)一樣使用小批量的隨機梯度下降算法。每次SGD更新的方向是通過對80個句子的小批量樣本計算得來的。我們對每個模型進行了大概5天的訓練。

一旦一個模型被訓練,我們使用集束搜索來找到一個近似最大化條件概率的翻譯,使用這種方法從神經機器翻譯模型生成翻譯

五、RESULTS

5.1 QUANTITATIVE RESULTS(定量結果)

表一中,我們列出以BLEU分數衡量翻譯表現。在表中我們可以清晰地看到,在所有情況下,提出的RNNsearch都優於傳統的RNNencdec。更重要的是,當只考慮由已知詞組成的句子時,RNNsearch的性能和傳統的基於短語的翻譯系統(Moses)一樣好。這是一個很重大的成就,因爲考慮到Moses使用的是一個單獨的語料庫,而不是我們在訓練RNNsearch和RNNencdec時使用的平行語料庫。

我們提出方法的一個動機就是在基本的encoder-decoder中定長上下文向量的使用。我們推測這樣的限制使得基本的encoder-decoder方法在長句子上表現不佳。

RNNsearch-30的性能甚至優於rnnenc12 -50,這進一步證明了所提出的模型相對於基本的編碼器-解碼器的優越性。

5.2 QUALITATIVE ANALYSIS(定性分析)

(1)ALIGNMENT(對齊)
提出的方法提供了一種直觀的方法來檢查生成的譯文中的詞和源句中的詞之間的對齊(軟對齊)。矩陣的每一行都暗示了與譯文相關的權重。由此我們可以看出,在生成目標詞時,源句中的哪些位置被認爲更重要。

軟對齊相對於硬對齊的優勢是顯而易見的。不像硬對齊處理翻譯那麼生硬,可以自然的考慮前後文進行對應;另一個好處是能自然的處理不同長度的源和目標短語,而不用以一種反直覺的方式把一些詞映射成(NULL)。

(2)LONG SENTENCES(長句子)
RNNsearch可以在翻譯長句方面比傳統模型(RNNencdec)要好得多。這可能是因爲RNNsearch不需要將一個長句子完美的編碼到一個固定長度的向量中,而只精確的編碼輸入句子中某個特定單詞的周圍。

六、RELATED WORK

6.1 LEARNING TO ALIGN

在手寫合成的背景下,graves(2013)最近提出了一個類似的方法,將輸出符號與輸入符號對齊。手寫合成是一個任務,其中模型被要求生成一個給定的字符序列的手寫。在他的工作中,他使用了高斯核的混合來計算註釋的權重,其中每個核的位置、寬度和混合係數是通過一個對齊模型來預測的。更具體地說,他的定位被限制爲預測位置,使位置單調增加。

與我們的方法的主要區別在於,在(Graves, 2013)中,註釋權值的模式只朝一個方向移動。在機器翻譯的環境中,這是一個嚴重的限制,因爲(長距離的)重新排序常常需要生成語法正確的翻譯(例如,從英語到德語)。

另一方面,我們的方法需要計算源句中每個詞在翻譯中的註釋權重。這個缺點對於翻譯來說並不嚴重,因爲大多數的輸入和輸出的句子只有15-40個單詞。但是,這可能會限制該方案對其他任務的適用性。

6.2 NEURAL NETWORKS FOR MACHINE TRANSLATION

自從Bengio等人(2003)提出了一種神經概率語言模型,該模型使用神經網絡對給定一定數量的前一個單詞的條件概率進行建模以來,神經網絡在機器翻譯中得到了廣泛的應用。然而,神經網絡的作用在很大程度上僅限於爲現有的統計機器翻譯系統提供一個單一的功能,或者對現有系統提供的候選翻譯進行重新排序。

雖然上述方法已被證明可以提高翻譯性能超過最先進的機器翻譯系統,我們更感興趣的是一個更雄心勃勃的目標,設計一個全新的翻譯系統基於神經網絡。因此,我們在本文中所考慮的神經機器翻譯方法與這些早期的工作有根本的不同。我們的模型不使用神經網絡作爲現有系統的一部分,而是獨立工作,直接從源句生成翻譯。

七、CONCLUSION

傳統的神經機器翻譯方法,稱爲編碼器-解碼器方法,將整個輸入語句編碼成一個固定長度的向量,然後從這個向量中對翻譯進行解碼。根據Cho等人(2014b)和Pouget-Abadie等人(2014)最近的一項實證研究,我們推測使用固定長度的上下文向量來翻譯長句子是有問題的。

在這篇論文中,我們提出了一個新的架構來解決這個問題。我們擴展了基本的編碼器-解碼器,在生成每個目標字時,允許模型(軟)搜索一組輸入字,或者由編碼器計算出它們的註釋。這使模型不必將整個源語句編碼爲一個固定長度的向量,而且還使模型只關注與生成下一個目標單詞相關的信息。這對神經機器翻譯系統處理長句子的能力有很大的積極影響。與傳統的機器翻譯系統不同,翻譯系統的所有部分,包括對齊機制,都經過聯合訓練,以獲得更好的生成正確翻譯的日誌概率。

我們在英法翻譯任務中測試了這個被稱爲RNNsearch的模型。實驗結果表明,無論句子長度如何,所提出的RNNsearch都比傳統的編譯碼器模型(RNNencdec)有顯著的優越性,並且對源語句的長度具有更強的魯棒性。在定性分析中,我們研究了RNNsearch生成的(軟)對齊,我們可以得出這樣的結論:當模型生成正確的翻譯時,它可以將源句中的每個目標單詞與相關單詞或它們的註釋正確對齊。

也許更重要的是,所提出的方法實現了可與現有基於短語的統計機器翻譯相媲美的翻譯性能。考慮到提出的體系結構或整個神經機器翻譯家族直到今年才被提出,這是一個引人注目的結果。我們相信這裏提出的體系結構是朝着更好的機器翻譯和更好地理解自然語言邁出的有希望的一步。

附錄A:MODEL ARCHITECTURE(模型架構)

A.1 ARCHITECTURAL CHOICES

對於RNN的激活函數f,我們使用Cho等人最近提出的門控隱藏單元(2014a)。門控隱藏單元可以替代傳統的簡單單元,比如元素方面的tanh。這個門控單元類似於Hochreiter和Schmidhuber(1997)早先提出的長短時記憶(LSTM)單元,與它共享更好地建模和學習長期依賴關係的能力。這是通過在展開的RNN中設置導數乘積接近1的計算路徑來實現的。這些路徑允許梯度很容易地向後流動,而不會受到消失效應的太大影響(Hochreiter, 1991;Bengio et al., 1994; Pascanu et al., 2013)。因此,可以使用LSTM單元代替這裏描述的門控隱藏單元,就像Sutskever等人(2014)在類似的上下文中所做的那樣。

在解碼器的每個步驟中,我們將輸出概率(Eq.(4))計算爲一個多層函數(Pascanu et al., 2014)。我們使用maxout單位的單個隱含層(Goodfellow et al., 2013),並使用softmax函數對輸出概率(每個單詞一個)進行規範化(參見公式(6))。

A.2 DETAILED DESCRIPTION OF THE MODEL

爲了增加可讀性,省略了所有的偏置項。

上下文向量ci在每個步驟由對齊模型重新計算。

對於本文使用的所有模型,隱層尺寸n爲1000,嵌入維數m爲620,深輸出l的maxout隱層尺寸爲500。對齊模型n0的隱藏單元數爲1000。

附錄B:TRAINING PROCEDURE(訓練流程)

簡述了訓練流程。

附錄C:TRANSLATIONS OF LONG SENTENCES(長句翻譯)

作者列出了不同方法的長句翻譯結果及對比。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章