端到端語音識別時代來臨:網易杭州研究院的智能語音探索之路

從上世紀50年代誕生到2012年引入DNN後識別效果真正達到實用化,語音識別技術花了快六十年,但在深度學習的助力之下,語音識別從實用到超過人類水平並沒有花費太多時間。2015以前,業界更多使用的是傳統的DNN-HMM混合模型,需要藉助對齊信息和上下文相關音素才能達到比較好的識別準確率。2015年以後,CTC算法興起,簡化了訓練過程,而且識別效果毫不遜色,語音界紛紛投入大量資源訓練更深、更復雜的神經網絡,利用端到端技術進一步大幅提升語音識別的性能。2017年12月,谷歌提出“使用序列到序列模型的當前最佳語音識別系統”(State-of-the-art Speech Recognition With Sequence-to-Sequence Models),將詞錯率降低至5.6%,優於人類表現。自此,基於Attention機制的新型端到端語音識別系統成爲了ASR領域的研究主流。從語音領域國際頂會Interspeech來看,Attention相關算法幾乎出現在了今年所有語音識別或者說話人識別研究的文章中。端到端語音識別的時代已經來臨。

近日,網易杭州研究院(簡稱網易杭研)語音識別團隊憑藉其在端到端語音識別系統的積累和針對Transformer網絡的優化,在ASRU2019中英混雜語音識別挑戰賽端到端語音識別賽道奪得冠軍。藉此機會,我們採訪了網易杭研語音識別團隊負責人劉東,他與我們分享了語音識別團隊背後的故事,以及網易杭研在語音識別技術領域的實踐和落地經驗。

從4個人到10個人,算法與工程實踐並重

網易杭研對語音識別技術的研究始於2013年,當時移動互聯網興起,網易的手遊以及其它一些APP都開始支持發送語音消息,語音轉文字功能成爲剛需。大家逐漸意識到,語音識別將來可能會成爲互聯網產品研發流程中不可或缺的一項技術,語音識別團隊自此成立。成立之初團隊只有四個人,彼時剛加入網易一年的劉東也成爲了其中一員。

剛進入網易的時候,劉東主要支持網易雲音樂業務,參與了聽歌識曲、音樂特徵分析、哼唱識別等項目,從2013年開始負責網易語音識別系統的核心研發工作。由於網易將深度學習技術用到線上系統的時間相對較早,當時各類開源系統、框架和工具還不像現在這麼成熟,因此劉東對於算法研發上線的各個環節都會深度參與:在算法模型研發階段,爲了追求更好的效果,需要研究各種算法與模型結構,同時爲了解決海量數據的大規模處理,需要搭建並行計算集羣;在模型上線階段,除了做好算法本身的研發外,還需要對整個計算流程的設計、代碼實現的優化、線上服務的部署等都有所瞭解,才能提供穩定高效的線上服務。這個過程幫助劉東練就了從語音技術、深度學習到CPU/GPU優化、客戶端算法優化及服務工程搭建的全棧能力。

在劉東看來,生產級語音識別系統的建設,需要團隊成員既懂網絡架構,又懂底層優化。據介紹,現在網易杭研語音識別團隊規模一直維持在10人左右,其中有一位解決方案工程師負責各業務需求對接和跟進,其他成員均爲算法研發識別工程師。語音識別系統研發中的數據收集整理、模型訓練、線上系統開發、服務部署維護都由團隊負責,這就要求團隊成員同時具備算法和工程方面的能力。

網易杭州研究院語音識別團隊(左六爲劉東)

此外,語音識別團隊研發和落地業界先進技術,最終還是爲了解決網易內部各業務遇到的實際問題,而業務問題是多種多樣的,因此團隊成員需要比較強的綜合能力,除了算法和工程方面的專業技能外,還需要很強的學習能力、問題的分析和總結能力。在業務方向上,團隊不僅侷限在語音識別一個領域,和語音音頻相關的方向也會有涉及,比如爲網易雲音樂提供音頻相關技術、語種識別(Language Recognition)等。

6年迭代,網易杭研語音識別系統從無到有

從2012年開始,伴隨着深度學習技術的發展,語音識別技術也經歷了革命性的變化,基本可以概括爲以下三個階段:

  • 基於DNN-HMM(深度神經網絡 - 隱馬爾科夫模型)的語音識別
  • 基於CTC(連接時序分類)的端到端語音識別
  • 基於Attention的端到端語音識別

從技術維度來看,其發展歷程與業界的技術進展基本保持一致,首先從HMM+DNN系統升級到HMM+CNN/LSTM系統,再升級到後來的CTC系統,近兩年則逐漸轉爲基於Transformer的純端到端系統。

從2013年開始,網易杭研的語音識別系統經歷了從最初原型系統、到後期逐步完善優化、直至大規模應用三個階段。

最開始團隊主要基於採購的標準數據集以及相關開源工具來搭建系統,雖然勉強可以工作,但識別精度和識別效率上都不甚理想;後來劉東帶領團隊逐步構建了自己的數據處理流程,收集並標註了大量實際場景數據,在內部自己維護了一套經過人工仔細校驗的發音詞典,以及與業務場景匹配的語言模型,顯著優化了識別準確度。同時還構建了自己的一套標準化訓練流程,並開發了高度優化的線上推理引擎,使得線上服務的效率明顯提升。這個階段的語音識別系統已經能夠滿足業務大規模使用的需求,開始定向服務少量業務。

杭研的語音識別系統一邊在業務實踐中磨練一邊不斷升級,團隊又基於整個識別系統構建了一個閉環優化流程,持續積累數據來解決識別不準確的問題,同時在算法層面持續跟進技術發展、迭代算法,構建了多種算法系統的訓練流程以及線上服務框架,並結合業務特點匹配最合適的解決方案,使得系統在實際業務中的表現持續提升。同時結合實際業務場景的需求,語音識別系統陸續推出了短語音識別、長語音識別、實時語音識別等服務,在業務方的多次對比評測中取得了較好的結果,並在多個業務大規模落地。

在劉東看來,只要能滿足業務需求的識別系統就是好的識別系統,它需要在業務實際場景下提供穩定可靠的識別能力,且充分適配業務需求。

在網易杭研當前的語音識別算法系統中,有不同的算法組件來適配不同的需求,比如傳統框架下支持邊錄音邊識別的算法、支持整句識別的算法,端到端框架下的識別算法,以及語音檢測、後處理等算法等;在模型層面,也會有針對不同業務場景的模型,比如針對電話客服場景的模型、針對遊戲語音消息場景的模型等。其中,Kaldi和ESPNET是現階段網易杭研語音識別團隊最常用的兩個框架,研究人員有很多工作會基於這兩個框架展開,團隊自研的一些算法改進與創新有很多是在這兩個框架下完成的。對於工作中發現的框架存在的問題,團隊也會在社區中與開發者討論並提出修改建議。

經過長期積累和多次迭代,網易杭研的語音識別系統現在已經能較好地滿足網易內部各類業務需求,同時做到比較高的識別準確率。不過劉東也坦言,該系統目前支持的語種相對還比較少,後續將隨着網易集團業務的國際化發展逐步擴展。

炙手可熱的端到端語音識別

伴隨着LSTM等循環神經網絡(RNN)等技術的成功,基於深度學習的端到端建模技術逐漸在學術界和工業界中得到關注,其中一個經典的算法就是CTC算法。2015 年起, Google、百度等公司使用CTC模型取得了比傳統混合識別系統更好的性能,業界開始在語音識別系統中大量使用CTC技術,拉開了端到端語音識別系統時代的序幕。

何爲“端到端”?有人把省略了GMM-HMM對齊以及上下文相關建模的系統稱爲端到端系統;也有人把進一步省略詞典、甚至語言模型的系統稱爲端到端。按照業界目前更通用的說法,端到端語音識別系統指的是,與傳統的DNN-HMM混合模型相比,省略掉了GMM-HMM系統得到對齊信息和上下文相關音素的步驟,無需多次迭代,直接從神經網絡開始訓練。主要包括連接時序分類(CTC)模型、遞歸神經網絡轉換器(RNN-T)模型、基於注意力機制的序列到序列(Attention based Seq2Seq)模型。

端到端系統與傳統算法模型簡單對比如下:

HMM系統 CTC系統 Seq2Seq系統
深度網絡預測目標 HMM狀態,基於決策樹聚類及強制對齊獲得 英文一般爲字母、bpe片段、音素組合等;中文一般爲漢字、拼音等 英文一般爲字母或bpe片段;中文一般爲漢字
是否需要發音詞典
是否需要語言模型
備註 逐幀預測HMM狀態,預測目標和系統最終輸出目標不一致,非端到端系統 CTC算法本身存在侷限,預測得到的目標相互之間條件獨立,缺少上下文依賴信息,需要引入語言模型才能取得好的效果 不存在CTC算法中條件獨立的問題,不需要語言模型也可以獲得很好的效果,加入語言模型後性能可進一步小幅提升

在數據規模比較大的情況下,CTC算法的效果優於原來基於HMM的語音識別系統,但CTC算法上有條件獨立的假設,對上下文的信息利用不充分,在識別系統中應用時還需要額外引入語言模型才能達到比較好的效果。

2017年12月,谷歌提出“使用序列到序列模型的當前最佳語音識別系統”(State-of-the-art Speech Recognition With Sequence-to-Sequence Models),首次將基於Attention機制的端到端算法應用到語音識別系統中,使得采用單一的深度模型就可以完成語音序列到對應文本序列的轉換,而且在識別準確率上達到甚至超過傳統算法。

相比於傳統的語音識別系統,端到端系統在構建時不需要關注底層的發音字典以及相關的音素信息,減少了對語言學知識的要求,採用純數據驅動的方式,系統複雜度上簡化很多,構建起來更加容易,而且靈活性也更強。

正因爲如此,端到端識別技術近些年成爲了學術界研究的熱點,ICASSP、Interspeech等學術會議上有大量端到端識別相關的研究成果發表,而且在模型性能優化、應用領域拓展、數據有效利用等多個方向也有創新成果持續涌現。在工業界,以Google爲代表的互聯網巨頭也通過論文或博客的方式,多次介紹端到端識別系統在實際業務中的應用落地情況。

網易杭研語音識別團隊近期工作的重點也是端到端的語音識別系統,在這次的ASRU2019中英混雜語音識別挑戰賽中,劉東的團隊只參加了端到端語音識別賽道的比賽。

人類實際日常交流中經常會有中文語境下英文單詞夾雜的現象,這在學術上稱爲語種混雜(Code-switch),是當前語音識別技術面臨的重要挑戰之一。其技術難點主要表現爲:嵌入語受主體語影響形成的非母語口音現象嚴重、不同語言音素構成之間的差異給混合聲學建模帶來巨大困難、帶標註的混合語音訓練數據極其稀缺。

劉東進一步解釋道,傳統語音算法在不同語種識別基礎建模單元上,語言學信息是不一樣的,如漢語是基於拼音的聲母韻母、英語則是英文的音素,這種技術架構對指定語種的語言學知識依賴較大,也難以擴展到多語種識別。網易杭研智能語音團隊希望能借助端到端技術來解決上述問題,用統一的網絡進行建模,儘量減少語種相關的發音詞典編輯、建模單元選擇等工作,基於數據驅動而非語言學信息來構建系統,這樣後續成果也可以快速遷移到其他語言上。

在端到端這個技術體系內,對於語音識別這種序列到序列(Seq2Seq)問題,參考機器翻譯的經驗以及業界最近的論文成果,Transformer網絡結構相比其它結構有更好的性能,成爲了網易杭研語音識別團隊的首選。團隊採用基於注意力(Attention)機制的Transformer網絡結構,並做了各種細節優化,如引入多任務學習機制(Multi-Task Learning),在編碼端加入CTC損失函數,加速模型收斂,同時在解碼時利用CTC得分避免Attention錯誤;在解碼端引入逐字的語種分類任務,加強模型對語種的區分能力。最終在端到端語音識別賽道提供的數據集上實現了5.91%的綜合錯誤率(MixErrorRate),從28個團隊中脫穎而出。

這次比賽對於團隊來說是一次階段性的成果檢驗。劉東表示,算法層面,杭研中英混合識別在基礎框架研發、調優的工作已經基本完成,系統正在逐步完善和優化之中,目前已有業務在測試,但要實現大規模應用還有一些細節需要優化,包括針對一些特定場景的數據收集、模型微調等,需要在業務實踐中不斷調整。

由於訓練的簡便性和良好的性能,基於Attention的純端到端系統儼然成爲了如今語音識別的標配,但它也並非大家認爲的那麼完美。劉東坦承,雖然端到端語音識別系統擁有諸多優點,但它的侷限也不可忽視。由於是純數據驅動,端到端語音識別系統沒有充分利用到先驗的各種語言學知識,在實際使用場景下想要達到比較好的效果,相比於傳統算法需要更多的標註數據來做模型訓練,雖然系統構建簡化了但數據收集難度上升了;而且和其它深度學習系統類似,模型的可解釋性不高,錯誤樣例的分析與優化難度大;此外,目前的端到端技術都是序列到序列的映射,缺少傳統系統中逐幀分類的信息,因此對於一些需要非常精確的時間對齊信息的場景並不適用。

語音識別落地不再單純以準確率作爲風向標

語音識別的準確率是業內公司在對外宣傳是最經常提到的一個指標,但也是最容易讓人感到疑惑的一個指標。早些年,業內公司對外宣稱的語音識別準確率就已經達到了97%、98%,各家差別不大,這一指標真的能代表公司語音技術水平的優劣嗎?對此,劉東表示並沒有太大的可比性。

在劉東看來,語音識別和許多其它AI技術一樣,都存在場景適配的問題。目前的語音識別技術還不能做到廣泛的通用性,需要結合實際的應用場景做適配,如果實際使用的場景和算法訓練時使用的數據區別較大,識別效果會有比較明顯的下降。杭研語音識別服務性能的評估,都是基於網易內部真實的業務場景進行的,包括客觀評價和主觀評價兩種方式,客觀評價就是學術界通用的字錯誤率統計;主觀評價是指人工評估,排除對內容理解無幫助的詞的影響,人工統計整句中關鍵內容識別的準確程度,綜合在多個實際業務中的客觀與主觀評估結果,得到綜合的準確率指標。而業界同行宣傳的精度指標,應該也是在其特定場景數據上測試得到的結果,雖然有一定的參考意義,但是橫向直接對比各家數值的高低是不科學的,而且由於各系統面向的領域都有所不同,所以直接比較意義也不大。

識別準確率不代表一切,在一定程度上代表了整個語音領域的風向,從業人員和消費者都漸漸不再把單純的技術指標作爲關注的焦點了。2019年,語音識別似乎進入了一個相對平靜期,語音識別領域的競爭逐漸從研發轉爲應用。研發比的是標準環境下純粹的算法誰更有優勢,而應用比較的是在真實場景下誰的技術更能產生優異的用戶體驗。人們關注的焦點漸漸迴歸到體驗,迴歸到一種“新的交互方式到底能給我們帶來什麼價值”這樣更爲純粹的商業視角。

當前網易集團內的各條業務線都或多或少用到了杭研的語音識別服務:在遊戲業務中,通過語音識別將玩家的語音消息轉換爲文字進行展示,並且部分遊戲裏還設置了語音答題等玩法;在音樂業務中,基於語音識別技術獲取歌詞的時間軸信息用於製作實時歌詞,以及在音視頻直播中對主播語音進行識別,輔助進行審覈與分析;在網易新聞中,對用戶上傳的短視頻進行語音識別,用於內容審覈;在有道詞典的語音翻譯功能中,對用戶語音識別爲文字信息再進行翻譯;此外,在易盾語音反垃圾、七魚電話客服、易信、雲信等業務中也都有落地。

但是從2017年開始爆發的智能音箱市場,網易卻沒有特別出彩的表現。相比之下,國內在語音識別做得比較好的公司,包括阿里、百度、小米等,都有自己的智能音箱產品來承託其智能語音能力。不過在劉東看來,是否佈局智能音箱,與公司語音技術能力並無關係。他表示,音箱產品屬於業務線層面的問題,從技術層面來看,語音識別在音箱的鏈條中只佔一小部分,後面還需要完善的語義理解以及配套的內容服務體系做支撐;從語音識別的角度看,音箱也只是其落地的一個業務領域而已。目前語音識別技術在網易集團業務中已經有廣泛的應用,是否有智能音箱產品和語音技術能力強不強沒有太大的相關性。

未來展望

在劉東眼中,2017-2019年是端到端技術快速發展的三年。過去三年以端到端技術爲代表的各種新算法不斷出現並應用在實際業務系統中,提升語音識別的效果,基於HMM的系統已經不是語音識別系統的唯一選擇,技術的不斷迭代推動了語音識別領域的持續發展;同時語音識別技術的應用領域越來越廣,基於語音識別技術的人機交互系統開始大規模應用,並且在限定場景下已經有比較好的表現,比如機器人電話客服系統、智能手機助手、智能音箱等。

對於從火爆漸趨冷靜的語音識別領域,劉東還有很多期望:雖然當下的語音識別系統在一些業務中有非常好的表現,但依然存在處理不好的場景,比如針對重口音、方言的識別,嘈雜環境的識別,多人同時說話的識別等,後續還有很大的進步空間;同時,遠場語音識別目前相比近場還有很大差距;此外,語音識別系統與其它系統比如語音合成、機器翻譯、語義理解等的統一和融合,隨着深度學習技術的發展和演進應該也會有所突破。

對於杭研語音識別團隊的未來方向和規劃,劉東表示當前還是會把主要精力用在結合業務真實數據優化端到端系統。對於語音領域的新技術,杭研語音識別團隊會一直保持關注,並在內部做一些小範圍的探索,但只有當技術足夠成熟且在網易的業務場景能夠帶來足夠好的提升效果時,纔會開始逐步推廣。

採訪嘉賓介紹

劉東,網易杭州研究院人工智能部語音算法專家,畢業於清華大學,精通語音技術、深度學習、CPU/GPU優化、客戶端算法優化及服務工程搭建等全棧能力。2012年加入網易,負責語音識別系統的核心研發工作,持續打造高性能語音識別引擎,並帶領團隊完成語音核心服務相關功能及非功能性需求,推動語音類技術在網易集團業務中的落地應用。劉東是網易集團最早將深度學習應用於實際生產的算法專家,2014年與團隊從0到1打造網易集團第一代基於深度學習的語音識別服務,並大規模應用於遊戲業務中。此後實現針對網易集團不同業務場景的語音識別定製化研發流程,滿足遊戲、七魚、易盾、有道、嚴選、音樂、傳媒等業務需求,並在多種業務對比中領先業界公開水平。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章