學界 | 百度機器同傳系統新突破:可預測譯文、延遲可控

機器之心報道

機器之心編輯部

由於不同語言之間存在詞序差異,同步性要求較高的同聲傳譯一直是困擾機器翻譯的一大難題。使用傳統的機器翻譯方法至少會出現一個句子的延遲,導致用戶無法與說話者同步。針對這一挑戰,百度推出了首個擁有預判能力和可控延遲的機器同傳翻譯系統——STACL,以很小的質量損失獲得了較小的延遲。

百度的 STACL(Simultaneous Translation with Anticipation and Controllable Latency)是首個擁有預判能力和可控延遲的機器同傳翻譯系統。它是一個能夠進行高質量雙語同傳的自動系統,代表了自然語言處理方向的重大突破。這一技術的挑戰很大一部分在於源語和目標語之間的次序差異以及現實世界同傳應用的延遲需求。

我們一般把口譯分爲兩種類型:

  1. 交替傳譯。譯員要等到說話者停頓(通常在句子結尾停頓)時纔開始翻譯,因此需要雙倍的時間完成交流過程。
  2. 同聲傳譯。譯員在說話者開始之後的幾秒就開始翻譯,並在他/她結束之後的幾秒內停止翻譯。

由於節省時間,同聲傳譯被廣泛應用於政府峯會、多邊磋商及許多其它場合。同聲傳譯的優勢爲其創造了大量需求,但同傳譯員的數量遠遠不夠。而且每個譯員只能工作一小段時間,之後他們的錯誤就會急劇增加,因此同傳譯員工作時都是兩人或三人一組,每 20-30 分鐘替換一下。

因此,迫切需要開發自動化系統來擴充同聲傳譯的力量。

創造一個自動化系統進行可靠的同聲傳譯是長期困擾這一領域的一大難題,源語和目的語之間的次序差異尤其難以克服。例如,這裏有一箇中文句子「布什總統在莫斯科與普京會晤」,中文詞「會晤」出現在句末,與德語或日語動詞類似。然而在其英語譯文中,動詞「meet」出現得要早得多。這種語言次序上的差異對於同傳譯員和可靠的機器同傳系統來說都是很大的障礙。因此,幾乎所有的「實時」翻譯系統今天都還在使用傳統的整句(即非同步)翻譯方法,導致系統出現至少一個句子的延遲,使得用戶無法與說話者同步。

我們受同傳譯員的啓發想辦法解決了這個難題,他們通常會預測演講者接下來要講的內容。但與同傳譯員不同的是,我們的模型預測的不是演講者的源語言,而是直接預測翻譯的目標語言,這樣它就能夠在一個「wait-k」模型中無縫融合譯文和預測內容。在這個模型中,翻譯總是延遲 k 個詞,以預測一些上下文。我們訓練模型在每個步驟(以及迄今爲止的翻譯)使用源語中的可用前綴來決定翻譯中的下一個單詞。在前面提到的例子中,鑑於中文前綴「布什總統在莫斯科」和此時的英語翻譯「-P-resident Bush」(K=2,比中文延遲兩個詞),我們的系統準確地在下一個中文動詞出現之前預測了下一個譯文單詞是「meet」,因爲布什很可能在莫斯科「meeting」某人(比如普京)。就像人工同傳需要提前瞭解演講者的主題和風格一樣,我們的模型也需要用大量具有相似句子結構的訓練數據來訓練,以進行合理的預測。

STACL 在延遲-質量的權衡方面也很靈活,用戶可以任意指定延遲要求(如,一字延遲或五字延遲)。在法語和西語等密切相關的語言之間,延遲可以設置得更短,因爲即使是逐字翻譯也效果不錯。然而,對於差異很大(如漢語和英語)以及語序不同的語言(如英語和德語),則需要更長的延遲來應對語序差異。翻譯質量很容易受到短延遲的影響,但是與傳統的整句(即非同步)翻譯相比,我們的系統質量損失很小。對於短延遲要求,我們將繼續提高翻譯質量。

據說最好的同傳譯員可以傳達 60% 的源材料信息(大約 3 秒鐘的延遲),而百度的新同傳系統比傳統的整句翻譯少了 3.4 個 BLEU 點(BLEU 是通過比較機器翻譯結果和人工翻譯來衡量整句翻譯質量的標準評估指標)。在採用等待三詞模式(wait-3-words model,指英語翻譯比漢語語音落後三個漢字,約 1.5-2 秒的延遲)的漢英同傳中,翻譯質量的單一參考 BLEU 分數爲 15.3 分,而傳統的整句(非同步)翻譯要高出 5 分左右。如果允許五個字(約 3 秒)的延遲,這種準確率差異會縮小到 3.4 分左右。

雖然這是最新進展,我們也完全意識到了機器同傳系統的很多侷限性。STACL 的發佈沒有打算取代人類譯員,而是讓同傳變得更容易實現,人類譯員在未來很多年仍然是翻譯市場的主力軍。

想了解更多關於 STACL 的信息,請看論文:

論文:STACL: Simultaneous Translation with Integrated Anticipation and Controllable Latency

論文地址:https://arxiv.org/pdf/1810.08398v1.pdf

摘要:同傳在很多場景中都非常實用,但由於詞序的差異和同步的要求,同傳也非常難以實現。本文介紹了一種非常簡單但效果驚人的「wait-k」模型,訓練該模型在聽到源語句的同時生成目標語句,但是通常會有 k 個詞的延遲。該框架將預測內容和翻譯無縫地集成在一個模型中,該模型是對現有神經翻譯框架微調之後獲得的。與整句的非同傳相比,本文中的漢英同傳實驗需要五個詞的延遲,質量下降了 3.4(單一參考)個 BLEU 值。此外,我們還制定了一個新的延遲度量來彌補以前的不足。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章