Unsupervised Pivot Translation for Distant Languages

Experiments Design

這是2019年ACL的一篇文章，是一個微軟的實習生寫的。文章主要解決遠距離語言的翻譯問題，是先將源語言先翻譯爲中間語言，然後再由中間語言翻譯到目標語言，中間語言可以有多個。其實這種思想在其他文章中就有用到，但本文的創新之處在於用LSTM來預測翻譯路徑（翻譯路徑衆多，必須選一條最優的），並取得了不錯的效果。

論文點

遠距離語言的翻譯問題，先將源語言先翻譯爲中間語言，然後再由中間語言翻譯到目標語言，中間語言可以有多個。
用LSTM來預測最佳翻譯路徑。

摘要

無監督神經機器翻譯（NMT）最近引起了很多關注。儘管最新的無監督翻譯方法通常在相似的語言（例如英語-德語翻譯）之間表現良好，但它們在遙遠的語言之間卻表現不佳，因爲無監督的對齊方式對於遙遠的語言並不適用。在這項工作中，我們介紹了無監督的樞軸平移語言，可通過多跳將一種語言翻譯成遠距離語言，並且每跳上的無監督翻譯比原始直接翻譯相對容易。我們提出了一種LTR（ learning to route）的方法來選擇源語言和目標語言之間的翻譯路徑。LTR在其最佳翻譯路徑可用的語言對上進行培訓，並應用於看不見的語言對以進行路徑選擇。在20種語言和294種遠距離語言對上進行的實驗證明了無監督的遠距離語言樞軸翻譯的優勢，以及所提出的LTR在路徑選擇方面的有效性。具體而言，在最佳情況下，LTR與常規直接的無監督方法相比提高了5.58 BLEU點。

引言

我們觀察到兩種遙遠的語言可以通過多箇中間躍點鏈接，其中，考慮到每個中間躍點上的兩種語言更相似，或者說單語訓練數據更大，在每種躍點上兩種語言的無監督翻譯比兩種遙距語言的直接翻譯更容易。因此，我們建議通過多個躍點來實現遠程語言的無監督中樞翻譯，其中每個躍點由相對簡單的語言對的無監督翻譯組成。例如，丹麥-加利西亞語這對遙遠的語言可以由三種更簡單的語言來翻譯:丹麥-英語、英國-西班牙語和西班牙-加利西亞語。這樣，在我們的實驗中，與從丹麥語到加利西亞語的直接無監督翻譯（6.56 BLEU評分）相比，無監督的樞軸翻譯的準確性更高（12.14 BLEU評分）。

無監督樞軸翻譯的挑戰是如何選擇良好的翻譯路徑。在給定較遠的語言對X-Y的情況下，存在大量可以從X轉換爲Y的路徑，並且不同的路徑可能會產生非常不同的翻譯精度。因此，如果選擇了一條較差的路徑，那麼無監督樞軸翻譯可能會比直接無監督翻譯的精度低。如何選擇具有良好翻譯精度的路徑對於確保無監督樞軸翻譯的性能很重要。

一種簡單的方法是計算驗證集上所有可能路徑的轉換精度，並選擇最準確的路徑。但是，由於存在大量可能的路徑，因此在計算上難以承受。我們提出了一種 LTR 方法，該方法採用一個路徑精度預測器(一個多層LSTM)來爲一個遠程語言對選擇一個好的路徑。給定翻譯路徑和路徑上每一跳的翻譯精度，路徑精度預測器可以預測沿該路徑的整體翻譯精度。這種預測器首先在已知總體精度的路徑訓練集上進行訓練，然後用於預測未知路徑的精度。我們在一個包含20種語言和總共294種遙遠語言對的大型數據集上進行了實驗，以驗證該方法的有效性。
我們提出的LTR在某些語言對上實現了超過5個BLEU點的改進。

本文的貢獻如下：

我們將樞軸翻譯引入無人監督的NMT中，以提高遠距離語言的準確性。
我們提出了LTR方法來自動選擇良好的翻譯路徑。
在20多種語言和294種遙遠的語言對上進行的大規模實驗證明了我們方法的有效性。