語音翻譯也能端到端？深度學習這條路有戲！

新智元報道

來源：科大訊飛

編輯：文強

【新智元導讀】科大訊飛日前在全球最具影響力的口語機器翻譯評測比賽IWSLT中，獲得了語音翻譯端到端模型評測的冠軍，還成爲英德口語翻譯任務中唯一受邀做Oral report的參賽團隊。端到端技術是當前語音翻譯的研究前沿，科大訊飛聯合優化語音識別和機器翻譯的新技術路線，理論上更具前景，一旦技術研究成功，將爲翻譯機器性能的提升帶來極大促進。

提問：語音翻譯涉及哪些步驟？

你或許會說，語音識別和機器翻譯——沒錯，傳統的語音翻譯通常採用語音識別和機器翻譯級聯的方式實現，對輸入語音先進行語音識別得到文本結果，然後再基於文本進行機器翻譯，這也是當前語音翻譯採用的主流方法。

不過，由於口語句子中含有大量非規範語言現象，例如重複、省略、顛倒，以及語義邏輯不清，斷句困難等問題，導致後續機器翻譯帶來嚴重的挑戰。此外，複雜環境下語音識別受發音人口音、環境噪聲，以及和語言中存在的同音詞、易混淆詞等複雜音素的影響也存在着識別錯誤，對最終機器翻譯性能也可能帶來影響。

因此，實際應用系統中，通常會在語音識別和機器翻譯之間增加一個語音識別後處理模塊，通過對識別結果進行規整、斷句、順滑、標點預測，甚至糾錯來儘可能地減小口語化和識別錯誤的影響。

不過，受語音和語言複雜性的影響，截止到目前爲止，這些問題並沒有被真正解決。

在剛剛結束的2018年國際口語機器翻譯評測比賽（International Workshop on Spoken Language Translation，IWSLT）中，科大訊飛團隊在端到端模型（End-to-End Model）的評測比賽中，以顯著優勢奪得第一名。該獎項也是科大訊飛今年在各項國際競賽中的第9個“世界冠軍”。

端到端語音翻譯技術路線，是通過構造一個完整的神經網絡模型，聯合優化語音識別、識別後處理和機器翻譯，建立源語言語音信號到目標語言文字的映射關係，進而實現從原始語音到目標譯文的翻譯。

這提供了一種解決語音翻譯的新思路，而且從目前看是初步可行的。一旦技術研究成功，理論上可以讓語音翻譯更準更快，未來也將爲翻譯機器性能的提升帶來極大促進。

國際頂級口語機器翻譯評測比賽 IWSLT，推動語音翻譯新方向

IWSLT是國際上最具影響力的口語機器翻譯評測比賽之一，重點關注口語，實現語音到文本的翻譯，從而解決人和人交流的問題。

到目前爲止，IWSLT已經舉辦了15屆，吸引了全球70多家科研團隊的參與。IWSLT針對語音翻譯實際應用面臨的難題，通過每年設定一些研究任務，並向外界提供公開的數據集合和評測交流機會，吸引了來自全球的科研團隊參與，對於推動語音翻譯技術創新和知識共享具有重要的意義。

除了科大訊飛，IWSLT 2018吸引了世界各地多所機器翻譯領域的知名大學及研究所參加，包括英國愛丁堡大學（University of Edinburgh）、美國約翰霍普金斯大學（JHU）、德國卡爾斯魯厄理工學院（KIT）、意大利Bruno Kessler 基金會（FBK）、芬蘭赫爾辛基大學（Helsinki），以及國內的阿里巴巴、搜狗等。

本次比賽包括兩個主要任務，一是英語到德語演講場景下的語音翻譯任務；二是巴斯克語到英語的低資源文本翻譯任務。

其中，在英語到德語的語音翻譯任務上，主辦方在今年提出了兩種評測方案：

傳統路線，也即語音識別、識別後處理、機器翻譯分而治之，稱之爲基線模型（baseline Model）；
端到端模型（End-to-end Model），將語音識別、識別後處理和機器翻譯統一起來聯合優化，能夠在一定程度上避免傳統基線模型中存在的識別錯誤擴散等問題，是一種新的思路，理論上更具前景。

端到端模型是當前口語翻譯研究領域的前沿，隨着深度學習的進步，研究人員開始探索通過構造一個完整的神經網絡模型，建立語音信號到目標文字的映射關係。

該方法通過將語音識別、識別後處理和機器翻譯統一起來聯合優化，爲解決傳統級聯方案分而治之中存在的難題提供了一種新的思路。例如，2017年Interspeech會議上，谷歌研究人員就將該方法應用到西班牙到英語的語音翻譯任務上，取得初步成效。

引入這一新的評測方案，也體現了IWSLT主辦方引導科研探索，推動語音翻譯技術不斷進步的努力。

科大訊飛勇於挑戰新路線，端到端語音翻譯獲得第一

科大訊飛參與了口語翻譯的兩種評測，並且是唯一參與端到端模型這種新技術路線的中國團隊。不僅如此，科大訊飛還作爲唯一受組委會邀請的語音翻譯任務參賽團隊、進行Oral report，向與會人員分享兩種技術路線研究所採用的方法，對促進語音翻譯新技術的進步具有重要作用。

因爲語言和語音本身的複雜性，新技術路線對統一建模需要很強的語音處理能力和調序能力，加之語言本身受到口語表達、環境噪聲的干擾，所以端到端技術路線要實現從原始語音到目標文本的翻譯，就是難上加難。

值得一提，賽事提供的公開數據集合中，能夠爲端到端模型方法提供直接的有監督數據是小規模的。要在3個月的時間裏，在小規模數據上構建一套高性能的端到端語音翻譯系統，非常具有挑戰性。

基於語音和機器翻譯上雄厚的技術積累，訊飛研究團隊針對端到端語音翻譯任務開展了探索性研究，最終在英德語音翻譯任務的端到端模型評測方案上獲得了第一名（與第二名BLEU分數拉開9個百分點，一般而言，提升3個百分點就能明顯體會到系統的優劣差異）。

不僅如此，在基線模型評測中，科大訊飛也取得了第二名的好成績。

“比賽的成績只是一方面，我們看重的是在源頭技術、新技術上進行探索，”科大訊飛的研究人員表示。

“我們參加了本次IWSLT評測的語音翻譯任務，在基於傳統的基線模型中，針對語音識別文本結果和機器翻譯訓練數據源語言文本風格不匹配問題，提出了對源語言文本逆變換以適配識別風格的方法，提高了語音翻譯的魯棒性。在端到端模型中，提出了基於DenseNet和BiLSTM編碼，以及基於自注意力機制解碼的端到端建模方案。實驗結果表明，儘管當前端到端模型的效果低於傳統方法，但從結果來看也證明該方法具有一定的可行性，整體系統框架也更加簡潔優雅，有望爲語音翻譯提供一種新的解決思路。”

客觀評價語音翻譯端到端技術，數據將是一大瓶頸和障礙，因爲語音識別的數據已積累了上十萬小時、機器翻譯的數據蒐集也達到千萬甚至上億，但端到端的模型，需要專門的語音到文本的句對，這方面的數據目前積累不夠，若要商業化，還需要更大的數據支撐。

對此，科大訊飛研究團隊表示，“由於語音翻譯任務的複雜性以及訓練數據蒐集的困難，無論傳統的基線模型方案還是最新提出的端到端語音翻譯方案，在實際應用中都還面臨一系列的難題，需要學術界和產業界共同努力。”

至於端到端的新技術，“如果能減少對有監督語音翻譯平行數據的依賴那是最好不過，而且這存在一定的可能性，例如可以嘗試借用現有的語音識別訓練數據和機器翻譯訓練數據，我們正在努力探索。”

語音翻譯也能端到端？深度學習這條路有戲！

GitHub扒皮：中國996企業、外資955企業曝光，有你家公司嗎？

20幅漫畫預測未來：充斥機器人和無人機的世界！

2019年IEEE Fellow名單曝光：近百名華人入選，大陸學者30餘人

何愷明拋出重磅炸彈！ImageNet並非必要

“德州撲克AI之父”再發新論文：“冷撲大師2.0”要來了？

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結