Facebook AI將推出M2M-100,這是首個多語言機器翻譯(MMT)模型,它可以在100種語言中的任意兩種之間進行翻譯,而無需依賴英語數據。M2M-100總共訓練了2200個語言方向,比以前最好的以英語爲中心的多語言模型多了10倍。部署M2M-100可以爲數十億人提高翻譯質量,特別是那些使用低資源語言的人。
本文最初發佈於Facebook官網,由InfoQ中文站翻譯並分享。
-
Facebook AI將推出M2M-100,這是首個多語言機器翻譯(MMT)模型,它可以在100種語言中的任意兩種之間進行翻譯,而無需依賴英語數據。它是開源的。
-
在翻譯時,比如中譯法,大多數以英語爲中心的多語言模型都進行中譯英和英譯法兩種訓練,因爲英語訓練數據使用最廣泛。我們的模型直接在中譯法數據上進行訓練,以便更好地保留意義。在評價機器翻譯時廣泛使用的BLEU度量標準下,它比以英語爲中心的系統高出10分。
-
M2M-100總共訓練了2200個語言方向,比以前最好的以英語爲中心的多語言模型多了10倍。部署M2M-100可以爲數十億人提供更高質量的翻譯,特別是那些使用低資源語言的人。
-
這一里程碑式成就得益於FacebookAI多年來在機器翻譯領域開展的基礎性工作。在本文中,我們將詳細分享我們如何爲100種語言構建更多樣化的MMT訓練數據集和模型。我們還發布了模型、訓練和評估設置,以幫助其他研究人員再現和進一步增強多語言模型。
原文鏈接:【https://www.infoq.cn/article/ROc0YEbtecYhmpwWez0b】。未經作者許可,禁止轉載。