【教程】語音識別中的End-to-End模型教程(附178頁PDF全文下載)

【導讀】Interspeech是由國際語音通信協會ISCA(International Speech Communication Association)組織的語音研究領域的頂級會議之一,是全球最大的綜合性語音信號處理領域的科技盛會,該會議每年舉辦一次,每次都會吸引全球語音信號領域以及人工智能領域知名學者、企業以及研發人員參加。本期內容爲大家整理了google研究人員Rohit Prabhavalkar在大會上的端到端語音識別模型教程,希望對大家有所幫助。

介紹:

傳統的語音識別系統是由一組獨立的構件組成,即聲學模型(AM)、語音模型(PM)、語言模型(LM)。其中AM輸入以聲學特徵爲主(通常是上下文相關的音素),以預測subword單元的分佈;PM一般情況是人工設計的詞典集合,它將聲學模型產生的subword單元序列映射到單詞上;最終,通過LM構件對各種詞的概率進行計算,得到文本序列。

在傳統的自動語音識別系統中,這些構件是在不同數據集上獨立訓練的,並且有一些獨立的假設以方便處理。而在過去的幾年裏,人們對開發端到端的語音識別系統越來越感興趣,這些系統試圖在單個系統中完成多個構件的工作。例如基於attention的模型、循環神經傳感器、循環神經校準器、目標詞時序分類等。這些模型的共同特點在於,它們組成在一個單一的神經網絡上,當接收一段語音信息後,直接輸出一組圖形或文字的概率分佈。隨着研究的逐漸深入,這種端到端的模型可以超過傳統自動語音識別系統的性能。

在本教程中,我們將詳細介紹自動語音識別中的端到端建模方案,從這些系統的歷史發展開始,同時分析這些方法的共性和區別;進而,我們將討論一些最近的創新工作,這些創新極大地改進了端到端模型的性能,使它們能夠超過傳統的自動語音識別系統的性能;然後,本教程將描述這項研究的一些令人興奮的應用,以及一些可能的研究方向;最終,我們將討論端到端模型現在存在的問題,以及將來所面臨的挑戰。

請關注專知公衆號(掃一掃最下面專知二維碼,或者點擊上方藍色專知)

  • 後臺回覆“EESR” 就可以獲取全文報告 PDF下載鏈接~

附PDF全文:

-END-

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章