端到端模型相比於傳統的hmm-gmm模型,有如下幾個優點:
- 不需要發音詞典。因爲模型直接輸出character或word;在中英混輸場景下,中文的發音體系和英文的發音體系不一樣(中文有第一聲,第二聲等),如果使用傳統的hmm-gmm,需要做音素的映射。
- 不同語言可以使用同一套端到端框架。而在傳統的hmm-gmm中,比如英文,中文甚至混輸,他們使用hmm state數是不一樣的,所以不能使用同一套hmm-gmm結構;
- 不需要強制對齊。
等等。。。。。
因此端到端模型越來越受到各大公司的青眯,比如百度的Deep Speech,facebook的wav2letter++等。在端到端模型中,我們不需要像傳統的HMM-GMM模型那樣構建HCLG圖,而是直接在輸出label上做prefix beam search。
推薦幾篇比較好的prefix beam search學習資料:
這篇文章形象的解釋了什麼是beam search:
https://www.zhihu.com/question/54356960/answer/293804923
這篇博客詳細介紹了prefix beam search,以及如何引入語言模型作爲輔助:
https://towardsdatascience.com/intuitively-understanding-connectionist-temporal-classification-3797e43a86c
這篇博客主要介紹了greedy search、Beam Search和prefix beam search的區別,並給出代碼實現:
https://github.com/DingKe/ml-tutorial/blob/master/ctc/CTC.ipynb