【教程】語音識別中的End-to-End模型教程（附178頁PDF全文下載）

原創

2018-12-17 15:10

【導讀】Interspeech是由國際語音通信協會ISCA（International Speech Communication Association）組織的語音研究領域的頂級會議之一，是全球最大的綜合性語音信號處理領域的科技盛會，該會議每年舉辦一次，每次都會吸引全球語音信號領域以及人工智能領域知名學者、企業以及研發人員參加。本期內容爲大家整理了google研究人員Rohit Prabhavalkar在大會上的端到端語音識別模型教程，希望對大家有所幫助。

介紹：

傳統的語音識別系統是由一組獨立的構件組成，即聲學模型（AM）、語音模型（PM）、語言模型（LM）。其中AM輸入以聲學特徵爲主（通常是上下文相關的音素），以預測subword單元的分佈；PM一般情況是人工設計的詞典集合，它將聲學模型產生的subword單元序列映射到單詞上；最終，通過LM構件對各種詞的概率進行計算，得到文本序列。

在傳統的自動語音識別系統中，這些構件是在不同數據集上獨立訓練的，並且有一些獨立的假設以方便處理。而在過去的幾年裏，人們對開發端到端的語音識別系統越來越感興趣，這些系統試圖在單個系統中完成多個構件的工作。例如基於attention的模型、循環神經傳感器、循環神經校準器、目標詞時序分類等。這些模型的共同特點在於，它們組成在一個單一的神經網絡上，當接收一段語音信息後，直接輸出一組圖形或文字的概率分佈。隨着研究的逐漸深入，這種端到端的模型可以超過傳統自動語音識別系統的性能。

在本教程中，我們將詳細介紹自動語音識別中的端到端建模方案，從這些系統的歷史發展開始，同時分析這些方法的共性和區別；進而，我們將討論一些最近的創新工作，這些創新極大地改進了端到端模型的性能，使它們能夠超過傳統的自動語音識別系統的性能；然後，本教程將描述這項研究的一些令人興奮的應用，以及一些可能的研究方向；最終，我們將討論端到端模型現在存在的問題，以及將來所面臨的挑戰。

請關注專知公衆號（掃一掃最下面專知二維碼，或者點擊上方藍色專知）