Facebook推出首個無需依賴英語即可翻譯100種語言的AI模型

Facebook AI將推出M2M-100,這是首個多語言機器翻譯(MMT)模型,它可以在100種語言中的任意兩種之間進行翻譯,而無需依賴英語數據。M2M-100總共訓練了2200個語言方向,比以前最好的以英語爲中心的多語言模型多了10倍。部署M2M-100可以爲數十億人提高翻譯質量,特別是那些使用低資源語言的人。

本文最初發佈於Facebook官網,由InfoQ中文站翻譯並分享。

image

  • Facebook AI將推出M2M-100,這是首個多語言機器翻譯(MMT)模型,它可以在100種語言中的任意兩種之間進行翻譯,而無需依賴英語數據。它是開源的。

  • 在翻譯時,比如中譯法,大多數以英語爲中心的多語言模型都進行中譯英和英譯法兩種訓練,因爲英語訓練數據使用最廣泛。我們的模型直接在中譯法數據上進行訓練,以便更好地保留意義。在評價機器翻譯時廣泛使用的BLEU度量標準下,它比以英語爲中心的系統高出10分。

  • M2M-100總共訓練了2200個語言方向,比以前最好的以英語爲中心的多語言模型多了10倍。部署M2M-100可以爲數十億人提供更高質量的翻譯,特別是那些使用低資源語言的人。

  • 這一里程碑式成就得益於FacebookAI多年來在機器翻譯領域開展的基礎性工作。在本文中,我們將詳細分享我們如何爲100種語言構建更多樣化的MMT訓練數據集和模型。我們還發布了模型、訓練和評估設置,以幫助其他研究人員再現和進一步增強多語言模型。

原文鏈接:【https://www.infoq.cn/article/ROc0YEbtecYhmpwWez0b】。未經作者許可,禁止轉載。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章