百度何中軍:機器翻譯 —— 從設想到大規模應用

不到現場,照樣看最乾貨的學術報告!

嗨,大家好。這裏是學術報告專欄,讀芯術小編不定期挑選並親自跑會,爲大家奉獻科技領域最優秀的學術報告,爲同學們記錄報告乾貨,並想方設法搞到一手的PPT和現場視頻——足夠乾貨,足夠新鮮!話不多說,快快看過來,希望這些優秀的青年學者、專家傑青的學術報告 ,能讓您在業餘時間的知識閱讀更有價值。


人工智能論壇如今浩如煙海,有硬貨、有乾貨的講座卻百裏挑一。“AI未來說·青年學術論壇”系列講座由中國科學院大學主辦,百度全力支持,讀芯術、paperweekly作爲合作自媒體。承辦單位爲中國科學院大學學生會,協辦單位爲中國科學院計算所研究生會、網絡中心研究生會、人工智能學院學生會、化學工程學院學生會、公共政策與管理學院學生會、微電子學院學生會。2020年6月20日,第16期“AI未來說·青年學術論壇”NLP前沿技術及產業化線上專場論壇以“線上平臺直播+微信社羣圖文直播”形式舉行度何帶來報告《機器翻譯 —— 從設想到大規模應用》。

百度何中軍的報告視頻

何中軍,博士,百度人工智能技術委員會主席,從事機器翻譯研究與開發十餘年,申請專利40餘項,研發了全球首個互聯網神經網絡翻譯系統、首個WiFi翻譯機、首個語義單元驅動的語音到語音同傳系統。曾獲國家科技進步二等獎、中國電子學會科技進步一等獎、中國專利銀獎、北京市科技進步二等獎、電子學會優秀科技工作者等多項獎勵。

告內容:70多年前,第一臺計算機誕生後不久,科學家就提出了利用計算機進行翻譯的設想。此後,隨着技術不斷更迭,算力大幅提升,以及互聯網帶來的數據井噴式增長,機器翻譯質量持續提高。尤其近年來神經網絡機器翻譯的出現及快速發展,使得機器翻譯水平大幅躍升,在人們的生產生活中得到了廣泛應用。本報告結合百度機器翻譯大規模工業化實踐,介紹機器翻譯技術進展、主要產品形式及應用,最後對未來發展進行展望。

機器翻譯 —— 從設想到大規模應用

何中軍博士以機器翻譯設想的提出爲開篇,緊接着對機器翻譯歷史進行了簡要回顧。1946年,第一臺電子計算機ENIAC誕生以後,1947年美國洛克菲勒基金會副總裁Warren Weaver提出了用計算機來做機器翻譯的設想。經過大約十多年的發展,1964年我國劉湧泉、高祖舜、劉倬三位科學家合著了一本名爲《機器翻譯淺說》的科普讀物,他們在書中這樣寫到——“短短十多個年頭已經取得很大成績,隨着科學研究進步和語言研究提高,機器翻譯在不久的將來定會取得更大成就,從而可以在實際工作中得到應用”。

1949年,Warren Weaver發表了機器翻譯備忘錄,正式提出機器翻譯問題。1954年,喬治敦大學和IBM實現了第一個機器翻譯系統。當時人們覺得機器翻譯很快就能實現,因此熱情高漲。但到了1966年,美國語言自動處理諮詢委員會(ALPAC)針對機器翻譯的研究情況發佈了一個調查報告,指出機器翻譯水平遠遠達不到人們理想的程度,機器翻譯這個事不太可行。這份報告給當時的機器翻譯研究澆了一盤冷水,於是政府停止了資助,機器翻譯也隨之進入了停滯狀態。1968年,Systran公司成立,其初衷是爲了服務美國軍方。進入70年代以後,隨着喬姆斯基語言學理論爲大家廣泛研究和接受、科技進步以及硬件進步,人們重新燃起了對機器翻譯的希望。到了90年代初期,IBM通過兩篇經典文章提出了統計機器翻譯模型,從此拉開了統計機器翻譯的序幕。2006年,Google發佈了首個互聯網翻譯系統。在統計機器翻譯佔據了20多年的統治地位後,2014年神經網絡翻譯模型被提出,2015年5月百度旋即發佈了全球首個互聯網神經網絡翻譯系統,2016年9月Google也發佈了神經網絡翻譯系統。此後,國內外巨頭互聯網公司都紛紛把神經網絡翻譯系統作爲主系統。這便是機器翻譯的簡要發展歷史。

何中軍博士接着介紹了驅動機器翻譯發展的三駕馬車。第一是算法演進,基於規則、統計、神經網絡的算法。第二是算力,最開始計算機是由電子管、晶體管爲材料製造的,隨着技術發展,到統計機器翻譯時代,主力算力是CPU集羣,神經網絡翻譯時代主力算力則是GPU集羣。第三是數據,最開始的時候人們通過構建規則以及利用字典進行翻譯,互聯網出現以後產生了大規模的數據,人們開始使用這些自動採集的大數據來訓練機器翻譯系統,近年來又引入了行業優質垂類數據來進一步優化翻譯系統。

前面提到喬治敦大學和IBM公司研發了第一個機器翻譯系統,當時他們用的是IBM 701機,6條規則和250個詞,可以說是一個玩具模型,而現在我們可以利用數十億雙語句對,在GPU集羣上訓練神經網絡翻譯系統。通過比較,我們可以看到這幾十年巨大的進步和發展。

與技術發展一樣迅猛的,是翻譯需求的增長。

最開始機器翻譯設想提出是爲了給軍方服務。美蘇冷戰時期,美國希望獲取蘇聯情報以瞭解蘇聯人的動向,但由於翻譯人力不足,因此他們迫切需要俄語到英語的翻譯系統,所以當時研製機器翻譯系統主要是將俄語翻譯爲英語。長期以來,機器翻譯一直服務於軍方。冷戰結束以後,世界經濟一體化進程開始。1993年,歐盟成立,工作語種多達24個,每年有60多萬頁文件需要翻譯,每年翻譯支出高達10億歐元。由於翻譯任務繁重且費用高昂,歐盟對機器翻譯的需求非常迫切,因此歐盟第七框架計劃投入了巨資研發機器翻譯系統。2013年,我國提出了偉大“一帶一路”倡議,涉及65個國家和地區,截至2019年有136個國家和30個國際組織簽署了合作文件,語言種類超過110種,對多語言翻譯的需求非常巨大。對於個人用戶而言,翻譯的需求也大幅增長。從出境遊人數來看,1995年出境遊人數只有0.05億,而2019年是1.5億人次。從中國互聯網用戶數來看,1997年中國互聯網用戶只有62萬,但到了今年3月份最新統計結果,中國互聯網用戶數已經突破了9億。對於語言服務商而言,近十年來全球語言服務業高速增長。根據《2019年中國語言服務發展報告》,2019年語言服務業全球產值接近500億美元。值得注意的是,大約54%的受訪語言服務商對機器翻譯質量比較滿意,這表明機器翻譯這些年取得了比較大的進步,也獲得了大家的認可。

現在機器翻譯已經進入了規模化應用的階段,在今年四月份百度將翻譯語種從原來20多種擴展到200多種語言互譯,每日翻譯超過千億字符,支持超過30萬家第三方應用。

機器翻譯不知不覺在身邊爲我們提供服務了。例如,遇到沐浴露瓶標籤上不認識的單詞,通過手機拍照翻譯看懂了內容。第二個例子有一位公交車司機,他用翻譯APP進行外語學習,在他的公交車上同時提供雙語播報服務,讓大家享受飛機頭等艙的服務。第三個例子也挺有意思,一個俄羅斯人在深圳交通違法了,民警跟他溝通發現語言不通,用了機器翻譯幫助處理了交通違法事故。第四個例子是巴基斯坦小夥子把錢包落在公交車上,公交車售貨員通過機器翻譯進行交流把錢包還給了他。這樣例子數不勝數,機器翻譯在生活中切切實實能給人們提供很多幫助。

之所以大家覺得機器翻譯翻譯得不錯,能夠幫助到自己,是因爲這幾年機器翻譯質量得到大幅度提升。以百度翻譯爲例,2011年6月30日發佈了中英翻譯系統,2015年以前主要是統計機器翻譯爲主,翻譯質量增長相對來說比較緩慢,但是2015年有了比較大的飛躍,這主要得益於神經網絡機器翻譯的威力,從2015年以後翻譯質量飛速上升,預計今年還是會有較大提升。

從2019年WMT中英機器翻譯評測來看,百度在中英翻譯上取得不錯的成績,位列第一。其優異性能主要來源於四個方面:一是數據方面使用了數據過濾、數據增強等;二是模型方面用了預訓練模型、更寬更深的模型;三是訓練階段用了知識蒸餾和多智能體聯合訓練模型,通過訓練多個智能體進行知識集成,再分發給單個智能體,這樣每個智能體本身學習能力也得到了提高;四是進行了模型融合以及對多結果輸出重排序。

今年全球爆發大規模疫情,爲幫助全球攜手抗擊疫情,多語言翻譯模型,尤其在醫學領域、生物領域的翻譯模型可以說是非常重要。百度使用領域定製模型技術,花了大約一週時間把模型上到線上,免費供大家使用。主要方法是,首先用大規模通用領域數據訓練通用模型,在此基礎上加入高質量醫療領域數據做優化訓練得到了醫療領域定製化模型。領域定製模型在術語翻譯和習慣表達上比傳統的通用模型翻譯得更好。


此外百度推出了文檔翻譯。文檔翻譯和文本翻譯區別在於,文檔有表格、公式、圖片、文字大小、顏色等格式信息。使用這個產品,用戶只需要把文檔上傳,PPT、PDF、Word等可以在原格式保留情況下,將文本翻譯出來,並且提供免費下載,大大提高了工作效率。有一位用戶反饋,文檔翻譯功能對於更好更快地瞭解那些晦澀難懂的科技類、醫學類英文論文的大意提供了很大幫助,事半功倍。

神經網絡不僅用在語言翻譯,語音、視覺研究方面,這些年來都取得比較大的進步,所以很自然會想把語言、語音、視覺這些多模態信息聯合起來。舉例來說,我們去英國旅行時很容易輸入英文進行查詢和翻譯,但去泰國、韓國的時候,泰語、韓語就很難輸入了,在這種場景下,拍照翻譯是很自然的輸入方式,對着標籤拍拍照片即可自動翻譯成自己的母語。此外,在閱讀的時候,這種方法也非常方便,可以實時動態屏幕取詞,尤其是學生在外語學習的時候,只要把手機屏幕對準要看的內容,手機屏幕會實時顯示單詞的翻譯。另外語音和翻譯結合,大家近年見得比較多是翻譯機,小小的設備裝在口袋裏就可以拿着去旅遊了。


最近幾年比較熱門的同聲傳譯,它跟傳統翻譯最大的區別在於要求翻譯時間延遲一定要小,跟說話人保持同步,對信息傳遞效率要求非常高。同聲傳譯員需要同時監聽、理解說話人所說內容,同時去組織、修正,把目標語言說出來,這個工作難度非常大。根據國際會議口譯員協會AIIC統計數據,全球會員僅有3021人,中國大陸漢英翻譯會員約有50人。據不完全統計每年中國需要同傳的會議有1萬多場,顯然需求是非常巨大的。爲滿足這些同聲傳譯需求,百度去年提出了語義單元驅動的同傳模型。如圖所示,上面是語音識別的結果,是一串連續的字符,沒有斷句和標點,因此首先用了動態切分策略切分成一個個語義單元,對於每一個語義單元進行翻譯,並且把翻譯結果作爲模型歷史信息,用於翻譯下一個語義單元,最後連接起來就能得到完整的譯文。這種語義單元驅動的同傳模型保證了翻譯的準確度和實時性。在譯文出來以後,還可以將其轉換爲語音。百度將這個系統做成了一個小程序。開會的時候,可以用手機掃描二維碼加入會議,插上耳機就像一位同聲傳譯員在你身邊提供翻譯,非常方便。

百度翻譯近期即將發佈一個同傳插件,這可謂是看劇神器,它可以解決看視頻、電視劇、電影時語言不通的問題,把一種語言實時翻譯爲另一種語言,以字幕的形式貼合到視頻下方輸出。

下面是百度翻譯的產品矩陣,包含了剛剛提到的文本翻譯、機器同傳、領域翻譯、視頻翻譯等等。


在介紹了百度的翻譯產品後,何中軍博士隨即指出了當前機器翻譯並不完美的事實,機器翻譯仍然面臨很多挑戰。一是融合知識非常困難,這裏的知識包括常識、世界知識、文化背景知識等等。二是數據稀疏,機器翻譯系統依賴於大量的訓練數據。目前全球有超過5000種語言,其中英語、漢語、西班牙語、阿拉伯語、葡萄牙語、印尼/馬來語、法語、日語、俄語、德語這十種常用語言數據量在互聯網上佔約77%,剩下其他語言加起來的數據量只有23%左右,實在是少得可憐,因此數據稀疏的問題特別嚴峻。另外要想追求譯文的信、達、雅,機器翻譯還有很長的路要走。

回想從1947年翻譯設想的提出到現在,70多年來機器翻譯確實取得了很大進步,也得到了大規模的應用,未來亦有很長的路要走。何中軍博士特意作了一首打油詩,對全篇報告進行了總結:

機翻江湖七十載,範式更替有三代。

規則統計與神經,翻譯質量步步升。

多模翻譯譜新篇,夢想照進現實中。

譯事三難信達雅,路漫漫兮求索行。

(整理人:鄒淑嫺)

AI未來說*青年學術論壇

第一期 數據挖掘專場

1. 李國傑院士:理性認識人工智能的“頭雁”作用

2. 百度熊輝教授:大數據智能化人才管理

3. 清華唐傑教授:網絡表示學習理論及應用

4. 瑞萊智慧劉強博士:深度學習時代的個性化推薦

5. 清華柴成亮博士:基於人機協作的數據管理

第二期 自然語言處理專場

1. 中科院張家俊:面向自然語言生成的同步雙向推斷模型

2. 北郵李蕾:關於自動文本摘要的分析與討論

3. 百度孫珂:對話技術的產業化應用與問題探討

4. 阿里譚繼偉:基於序列到序列模型的文本摘要及淘寶的實踐

5. 哈工大劉一佳:通過句法分析看上下文相關詞向量

第三期 計算機視覺專場

1. 北大彭宇新:跨媒體智能分析與應用

2. 清華魯繼文:深度強化學習與視覺內容理解

3. 百度李穎超:百度增強現實技術及應⽤

4. 中科院張士峯:基於深度學習的通用物體檢測算法對比探索

5. 港中文李弘揚 :物體檢測最新進展

第四期 語音技術專場

1. 中科院陶建華:語音技術現狀與未來

2. 清華大學吳及:音頻信號的深度學習處理方法

3. 小米王育軍:小愛背後的小米語音技術

4. 百度康永國:AI 時代的百度語音技術

5. 中科院劉斌:基於聯合對抗增強訓練的魯棒性端到端語音識別

第五期 量子計算專場

1. 清華大學翟薈:Discovering Quantum Mechanics with Machine Learning

2. 南方科技大學魯大爲:量子計算與人工智能的碰撞

3. 荷蘭國家數學和計算機科學中心(CWI)李繹楠:大數據時代下的量子計算

4. 蘇黎世聯邦理工學院(ETH)楊宇翔:量子精密測量

5. 百度段潤堯:量子架構——機遇與挑戰

第六期 機器學習專場

1. 中科院張文生:健康醫療大數據時代的認知計算

2. 中科院莊福振:基於知識共享的機器學習算法研究及應用

3. 百度胡曉光:飛槳(PaddlePaddle)核心技術與應用實踐

4. 清華大學王奕森:Adversarial Machine Learning: Attack and Defence

5. 南京大學趙申宜:SCOPE - Scalable Composite Optimization for Learning

第七期 自動駕駛專場

1. 北京大學查紅彬:基於數據流處理的SLAM技術

2. 清華大學鄧志東:自動駕駛的“感”與“知” - 挑戰與機遇

3. 百度朱帆:開放時代的自動駕駛 - 百度Apollo計劃

4. 北理宋文傑:時空域下智能車輛未知區域自主導航技術

第八期 深度學習專場

1. 中科院文新:深度學習入門基礎與學習資源

2. 中科院陳智能:計算機視覺經典——深度學習與目標檢測

3. 中科院付鵬:深度學習與機器閱讀

第九期 個性化內容推薦專場

1. 人民大學趙鑫:基於知識與推理的序列化推薦技術研究

2. 中科院趙軍:知識圖譜關鍵技術及其在推薦系統中的應用

第十期 視頻理解與推薦專場

1. 北京大學袁曉如:智能數據可視分析

第十一期 信息檢索與知識圖譜專場

1. 北京郵電大學邵鎣俠:知識圖譜高效嵌入方法

2. 人民大學徐君:智能搜索中的排序-突破概率排序準則

3. 百度周景博:POI知識圖譜的構建及應用

4. 百度宋勳超:百度大規模知識圖譜構建及智能應用

5. 百度馮知凡:基於知識圖譜的多模認知技術及智能應用

第十二期 年度特別專場

1. 復旦大學桂韜:當NLP邂逅Social Media--構建計算機與網絡語言的橋樑

2. 清華大學董胤蓬:Adversarial Robustness of Deep Learning

3. UIUC羅宇男:AI-assisted Scientific Discovery

4. 斯坦福應智韜:Graph Neural Network Applications

第十三期 AI助力疫情攻關線上專場

1. 清華大學吳及:信息技術助力新冠防控

2. 北京大學王亞沙:新冠肺炎傳播預測模型

3. 百度黃際洲:時空大數據與AI助力抗擊疫情——百度地圖的實踐與思考

4. 百度張傳明:疫情下的“活”導航是如何煉成的

第十四期 深度學習線上專場

1. 中國科學院徐俊剛:自動深度學習解讀

2. 北航孫鈺:昆蟲目標檢測技術

3. 百度尤曉赫:EasyDL,加速企業AI轉型

4. 百度鄧凱鵬:飛槳視覺技術解析與應用

第十五期 大數據線上專場

1. 復旦趙衛東:大數據的系統觀

2. 中科大徐童:AI×Talent數據驅動的智能人才計算

3. 百度李偉彬:基於PGL的圖神經網絡基線系統

4. 中科大張樂:基於人才流動表徵的企業競爭力分析


推薦閱讀專題


留言 點贊 發個朋友圈

我們一起分享AI學習與發展的乾貨

推薦文章閱讀

ACL2018論文集50篇解讀

EMNLP2017論文集28篇論文解讀

2018年AI三大頂會中國學術成果全鏈接

ACL2017 論文集:34篇解讀乾貨全在這裏

10篇AAAI2017經典論文回顧

長按識別二維碼可添加關注

讀芯君愛你

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章