語音識別端到端解碼資料彙總

端到端模型相比於傳統的hmm-gmm模型,有如下幾個優點:

  1. 不需要發音詞典。因爲模型直接輸出character或word;在中英混輸場景下,中文的發音體系和英文的發音體系不一樣(中文有第一聲,第二聲等),如果使用傳統的hmm-gmm,需要做音素的映射。
  2. 不同語言可以使用同一套端到端框架。而在傳統的hmm-gmm中,比如英文,中文甚至混輸,他們使用hmm state數是不一樣的,所以不能使用同一套hmm-gmm結構;
  3. 不需要強制對齊。

等等。。。。。

 因此端到端模型越來越受到各大公司的青眯,比如百度的Deep Speech,facebook的wav2letter++等。在端到端模型中,我們不需要像傳統的HMM-GMM模型那樣構建HCLG圖,而是直接在輸出label上做prefix beam search。

推薦幾篇比較好的prefix beam search學習資料:

這篇文章形象的解釋了什麼是beam search:
https://www.zhihu.com/question/54356960/answer/293804923

這篇博客詳細介紹了prefix beam search,以及如何引入語言模型作爲輔助:
https://towardsdatascience.com/intuitively-understanding-connectionist-temporal-classification-3797e43a86c

這篇博客主要介紹了greedy search、Beam Search和prefix beam search的區別,並給出代碼實現:
https://github.com/DingKe/ml-tutorial/blob/master/ctc/CTC.ipynb

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章