百度何中軍：機器翻譯 —— 從設想到大規模應用

不到現場，照樣看最乾貨的學術報告！

嗨，大家好。這裏是學術報告專欄，讀芯術小編不定期挑選並親自跑會，爲大家奉獻科技領域最優秀的學術報告，爲同學們記錄報告乾貨，並想方設法搞到一手的PPT和現場視頻——足夠乾貨，足夠新鮮！話不多說，快快看過來，希望這些優秀的青年學者、專家傑青的學術報告，能讓您在業餘時間的知識閱讀更有價值。

人工智能論壇如今浩如煙海，有硬貨、有乾貨的講座卻百裏挑一。“AI未來說·青年學術論壇”系列講座由中國科學院大學主辦，百度全力支持，讀芯術、paperweekly作爲合作自媒體。承辦單位爲中國科學院大學學生會，協辦單位爲中國科學院計算所研究生會、網絡中心研究生會、人工智能學院學生會、化學工程學院學生會、公共政策與管理學院學生會、微電子學院學生會。2020年6月20日，第16期“AI未來說·青年學術論壇”NLP前沿技術及產業化線上專場論壇以“線上平臺直播+微信社羣圖文直播”形式舉行。百度何中軍帶來報告《機器翻譯 —— 從設想到大規模應用》。

百度何中軍的報告視頻

何中軍，博士，百度人工智能技術委員會主席，從事機器翻譯研究與開發十餘年，申請專利40餘項，研發了全球首個互聯網神經網絡翻譯系統、首個WiFi翻譯機、首個語義單元驅動的語音到語音同傳系統。曾獲國家科技進步二等獎、中國電子學會科技進步一等獎、中國專利銀獎、北京市科技進步二等獎、電子學會優秀科技工作者等多項獎勵。

報告內容：70多年前，第一臺計算機誕生後不久，科學家就提出了利用計算機進行翻譯的設想。此後，隨着技術不斷更迭，算力大幅提升，以及互聯網帶來的數據井噴式增長，機器翻譯質量持續提高。尤其近年來神經網絡機器翻譯的出現及快速發展，使得機器翻譯水平大幅躍升，在人們的生產生活中得到了廣泛應用。本報告結合百度機器翻譯大規模工業化實踐，介紹機器翻譯技術進展、主要產品形式及應用，最後對未來發展進行展望。

機器翻譯 —— 從設想到大規模應用

何中軍博士以機器翻譯設想的提出爲開篇，緊接着對機器翻譯歷史進行了簡要回顧。1946年，第一臺電子計算機ENIAC誕生以後，1947年美國洛克菲勒基金會副總裁Warren Weaver提出了用計算機來做機器翻譯的設想。經過大約十多年的發展，1964年我國劉湧泉、高祖舜、劉倬三位科學家合著了一本名爲《機器翻譯淺說》的科普讀物，他們在書中這樣寫到——“短短十多個年頭已經取得很大成績，隨着科學研究進步和語言研究提高，機器翻譯在不久的將來定會取得更大成就，從而可以在實際工作中得到應用”。

1949年，Warren Weaver發表了機器翻譯備忘錄，正式提出機器翻譯問題。1954年，喬治敦大學和IBM實現了第一個機器翻譯系統。當時人們覺得機器翻譯很快就能實現，因此熱情高漲。但到了1966年，美國語言自動處理諮詢委員會（ALPAC）針對機器翻譯的研究情況發佈了一個調查報告，指出機器翻譯水平遠遠達不到人們理想的程度，機器翻譯這個事不太可行。這份報告給當時的機器翻譯研究澆了一盤冷水，於是政府停止了資助，機器翻譯也隨之進入了停滯狀態。1968年，Systran公司成立，其初衷是爲了服務美國軍方。進入70年代以後，隨着喬姆斯基語言學理論爲大家廣泛研究和接受、科技進步以及硬件進步，人們重新燃起了對機器翻譯的希望。到了90年代初期，IBM通過兩篇經典文章提出了統計機器翻譯模型，從此拉開了統計機器翻譯的序幕。2006年，Google發佈了首個互聯網翻譯系統。在統計機器翻譯佔據了20多年的統治地位後，2014年神經網絡翻譯模型被提出，2015年5月百度旋即發佈了全球首個互聯網神經網絡翻譯系統，2016年9月Google也發佈了神經網絡翻譯系統。此後，國內外巨頭互聯網公司都紛紛把神經網絡翻譯系統作爲主系統。這便是機器翻譯的簡要發展歷史。

何中軍博士接着介紹了驅動機器翻譯發展的三駕馬車。第一是算法演進，基於規則、統計、神經網絡的算法。第二是算力，最開始計算機是由電子管、晶體管爲材料製造的，隨着技術發展，到統計機器翻譯時代，主力算力是CPU集羣，神經網絡翻譯時代主力算力則是GPU集羣。第三是數據，最開始的時候人們通過構建規則以及利用字典進行翻譯，互聯網出現以後產生了大規模的數據，人們開始使用這些自動採集的大數據來訓練機器翻譯系統，近年來又引入了行業優質垂類數據來進一步優化翻譯系統。

前面提到喬治敦大學和IBM公司研發了第一個機器翻譯系統，當時他們用的是IBM 701機，6條規則和250個詞，可以說是一個玩具模型，而現在我們可以利用數十億雙語句對，在GPU集羣上訓練神經網絡翻譯系統。通過比較，我們可以看到這幾十年巨大的進步和發展。

與技術發展一樣迅猛的，是翻譯需求的增長。

最開始機器翻譯設想提出是爲了給軍方服務。美蘇冷戰時期，美國希望獲取蘇聯情報以瞭解蘇聯人的動向，但由於翻譯人力不足，因此他們迫切需要俄語到英語的翻譯系統，所以當時研製機器翻譯系統主要是將俄語翻譯爲英語。長期以來，機器翻譯一直服務於軍方。冷戰結束以後，世界經濟一體化進程開始。1993年，歐盟成立，工作語種多達24個，每年有60多萬頁文件需要翻譯，每年翻譯支出高達10億歐元。由於翻譯任務繁重且費用高昂，歐盟對機器翻譯的需求非常迫切，因此歐盟第七框架計劃投入了巨資研發機器翻譯系統。2013年，我國提出了偉大“一帶一路”倡議，涉及65個國家和地區，截至2019年有136個國家和30個國際組織簽署了合作文件，語言種類超過110種，對多語言翻譯的需求非常巨大。對於個人用戶而言，翻譯的需求也大幅增長。從出境遊人數來看，1995年出境遊人數只有0.05億，而2019年是1.5億人次。從中國互聯網用戶數來看，1997年中國互聯網用戶只有62萬，但到了今年3月份最新統計結果，中國互聯網用戶數已經突破了9億。對於語言服務商而言，近十年來全球語言服務業高速增長。根據《2019年中國語言服務發展報告》，2019年語言服務業全球產值接近500億美元。值得注意的是，大約54%的受訪語言服務商對機器翻譯質量比較滿意，這表明機器翻譯這些年取得了比較大的進步，也獲得了大家的認可。

現在機器翻譯已經進入了規模化應用的階段，在今年四月份百度將翻譯語種從原來20多種擴展到200多種語言互譯，每日翻譯超過千億字符，支持超過30萬家第三方應用。

機器翻譯不知不覺在身邊爲我們提供服務了。例如，遇到沐浴露瓶標籤上不認識的單詞，通過手機拍照翻譯看懂了內容。第二個例子有一位公交車司機，他用翻譯APP進行外語學習，在他的公交車上同時提供雙語播報服務，讓大家享受飛機頭等艙的服務。第三個例子也挺有意思，一個俄羅斯人在深圳交通違法了，民警跟他溝通發現語言不通，用了機器翻譯幫助處理了交通違法事故。第四個例子是巴基斯坦小夥子把錢包落在公交車上，公交車售貨員通過機器翻譯進行交流把錢包還給了他。這樣例子數不勝數，機器翻譯在生活中切切實實能給人們提供很多幫助。

之所以大家覺得機器翻譯翻譯得不錯，能夠幫助到自己，是因爲這幾年機器翻譯質量得到大幅度提升。以百度翻譯爲例，2011年6月30日發佈了中英翻譯系統，2015年以前主要是統計機器翻譯爲主，翻譯質量增長相對來說比較緩慢，但是2015年有了比較大的飛躍，這主要得益於神經網絡機器翻譯的威力，從2015年以後翻譯質量飛速上升，預計今年還是會有較大提升。

從2019年WMT中英機器翻譯評測來看，百度在中英翻譯上取得不錯的成績，位列第一。其優異性能主要來源於四個方面：一是數據方面使用了數據過濾、數據增強等；二是模型方面用了預訓練模型、更寬更深的模型；三是訓練階段用了知識蒸餾和多智能體聯合訓練模型，通過訓練多個智能體進行知識集成，再分發給單個智能體，這樣每個智能體本身學習能力也得到了提高；四是進行了模型融合以及對多結果輸出重排序。

今年全球爆發大規模疫情，爲幫助全球攜手抗擊疫情，多語言翻譯模型，尤其在醫學領域、生物領域的翻譯模型可以說是非常重要。百度使用領域定製模型技術，花了大約一週時間把模型上到線上，免費供大家使用。主要方法是，首先用大規模通用領域數據訓練通用模型，在此基礎上加入高質量醫療領域數據做優化訓練得到了醫療領域定製化模型。領域定製模型在術語翻譯和習慣表達上比傳統的通用模型翻譯得更好。

此外百度推出了文檔翻譯。文檔翻譯和文本翻譯區別在於，文檔有表格、公式、圖片、文字大小、顏色等格式信息。使用這個產品，用戶只需要把文檔上傳，PPT、PDF、Word等可以在原格式保留情況下，將文本翻譯出來，並且提供免費下載，大大提高了工作效率。有一位用戶反饋，文檔翻譯功能對於更好更快地瞭解那些晦澀難懂的科技類、醫學類英文論文的大意提供了很大幫助，事半功倍。

神經網絡不僅用在語言翻譯，語音、視覺研究方面，這些年來都取得比較大的進步，所以很自然會想把語言、語音、視覺這些多模態信息聯合起來。舉例來說，我們去英國旅行時很容易輸入英文進行查詢和翻譯，但去泰國、韓國的時候，泰語、韓語就很難輸入了，在這種場景下，拍照翻譯是很自然的輸入方式，對着標籤拍拍照片即可自動翻譯成自己的母語。此外，在閱讀的時候，這種方法也非常方便，可以實時動態屏幕取詞，尤其是學生在外語學習的時候，只要把手機屏幕對準要看的內容，手機屏幕會實時顯示單詞的翻譯。另外語音和翻譯結合，大家近年見得比較多是翻譯機，小小的設備裝在口袋裏就可以拿着去旅遊了。

最近幾年比較熱門的同聲傳譯，它跟傳統翻譯最大的區別在於要求翻譯時間延遲一定要小，跟說話人保持同步，對信息傳遞效率要求非常高。同聲傳譯員需要同時監聽、理解說話人所說內容，同時去組織、修正，把目標語言說出來，這個工作難度非常大。根據國際會議口譯員協會AIIC統計數據，全球會員僅有3021人，中國大陸漢英翻譯會員約有50人。據不完全統計每年中國需要同傳的會議有1萬多場，顯然需求是非常巨大的。爲滿足這些同聲傳譯需求，百度去年提出了語義單元驅動的同傳模型。如圖所示，上面是語音識別的結果，是一串連續的字符，沒有斷句和標點，因此首先用了動態切分策略切分成一個個語義單元，對於每一個語義單元進行翻譯，並且把翻譯結果作爲模型歷史信息，用於翻譯下一個語義單元，最後連接起來就能得到完整的譯文。這種語義單元驅動的同傳模型保證了翻譯的準確度和實時性。在譯文出來以後，還可以將其轉換爲語音。百度將這個系統做成了一個小程序。開會的時候，可以用手機掃描二維碼加入會議，插上耳機就像一位同聲傳譯員在你身邊提供翻譯，非常方便。

百度翻譯近期即將發佈一個同傳插件，這可謂是看劇神器，它可以解決看視頻、電視劇、電影時語言不通的問題，把一種語言實時翻譯爲另一種語言，以字幕的形式貼合到視頻下方輸出。

下面是百度翻譯的產品矩陣，包含了剛剛提到的文本翻譯、機器同傳、領域翻譯、視頻翻譯等等。

在介紹了百度的翻譯產品後，何中軍博士隨即指出了當前機器翻譯並不完美的事實，機器翻譯仍然面臨很多挑戰。一是融合知識非常困難，這裏的知識包括常識、世界知識、文化背景知識等等。二是數據稀疏，機器翻譯系統依賴於大量的訓練數據。目前全球有超過5000種語言，其中英語、漢語、西班牙語、阿拉伯語、葡萄牙語、印尼/馬來語、法語、日語、俄語、德語這十種常用語言數據量在互聯網上佔約77%，剩下其他語言加起來的數據量只有23%左右，實在是少得可憐，因此數據稀疏的問題特別嚴峻。另外要想追求譯文的信、達、雅，機器翻譯還有很長的路要走。

回想從1947年翻譯設想的提出到現在，70多年來機器翻譯確實取得了很大進步，也得到了大規模的應用，未來亦有很長的路要走。何中軍博士特意作了一首打油詩，對全篇報告進行了總結：

機翻江湖七十載，範式更替有三代。

規則統計與神經，翻譯質量步步升。

多模翻譯譜新篇，夢想照進現實中。

譯事三難信達雅，路漫漫兮求索行。

（整理人：鄒淑嫺）

AI未來說*青年學術論壇