深度學習在語音識別中的應用

原創

2019-05-11 04:34

提起深度學習的再次興起，大家首先可能會想到2012年AlexNet在圖像分類上的突破，但是最早深度學習的大規模應用發生在語音識別領域。自從2006年Geoffrey Hinton提出逐層的Pretraining之後，神經網絡再次進入大家的視野。2009年Geoffrey Hinton和Deng Li把DNN用於聲學模型建模，用於替代GMM，同時大家發現在訓練數據足夠的情況下Pretraining是不必要的。使用了DNN後，語音識別的詞錯誤率相對降低了30%。這裏的深度學習還只是用於替代HMM-GMM裏的GMM，再到後來，End-to-End的語音識別系統的出現，從根本上拋棄了複雜的HMM(包括WFST這樣複雜的解碼算法)。

深度學習和HMM的結合
前面介紹了經典的HMM-GMM模型，這是在深度學習流行前最主流的方法。使用深度神經網絡DNN來替代GMM是深度學習在語音識別的重要進展，它使得語音識別效果有了極大的提高。
我們回顧一下，在HMM-GMM模型裏，我們使用GMM來建模狀態的發射概率P(X|q)，也就是狀態q下觀察是X的概率，這裏X通常是當前幀的MFCC特徵。我們不能直接用DNN來建模這個發射概率，因爲DNN是區分性(discriminative)模型而不是生成(generative)模型，它只能得到概率P(q|X)，也就是給定觀察，輸出不同狀態的概率。根據公式：

因爲X是已知的，P(X)是個常量，所以我們可以計算：

爲了訓練DNN，我們需要更細粒度的標註，比如q是triphone，那麼我們需要知道每一幀特徵X對應的triphone標籤。讓人來標註是不可能的，我們通常先訓練一個HMM-GMM模型，然後通過Force-Alignment得到triphone級別的標籤用於訓練DNN。
用DNN來替代GMM得到的模型通常叫做HMM-DNN混合(hybrid)模型。除了用DNN替代GMM，還可以用DNN來實現特徵提取，把MFCC特徵再加上DNN的特徵作爲HMM-GMM的特徵，這種特徵叫做Tandem特徵。DNN相當於GMM有如下優點：
GMM的輸入要求各個維度是不相關的，因爲爲了簡化，通常加上GMM的協方差矩陣是對角陣。
DNN可以學習深層次的特徵，這是深度學習相對於傳統機器學習最大的優勢

End-to-End語音識別系統
前面介紹的HMM-DNN模型還是需要使用HMM來建模狀態的時序信息，整個系統還是非常複雜。因此現在也有很多研究放到了End-to-End的語音識別系統，也就是完全拋棄HMM模型。目前End-to-End的系統的效果達到以前最好的系統的水平，比如Google聲稱最新的End-to-End模型，詞錯率降至5.6%，相比傳統的商用方法實現了16%的相對(不是絕對)詞錯誤率下降。
有兩大類的End-to-End系統，一種是使用seq2seq模型，這是非常自然的想法，因爲語音識別的輸入是一個語音波形時序信號，而輸出是詞的序列。這和用於機器翻譯的seq2seq模型基本是類似的，有興趣的讀者可以參考相關論文，如Listen, Attend and Spell, LAS，State-of-the-art Speech Recognition With Sequence-to-Sequence Models，Wav2letter: an end-to-end convnet-based speech recognition system。也可以參考ESPNet、OpenSeq2Seq和Wav2letter++等開源實現。後文我們主要介紹基於CTC模型(損失函數)的End-to-End系統。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

深度學習在語音識別中的應用

有償尋求靠譜開發者個人或團隊

爲什麼我們應該使用 Flutter？環信Flutter SDK初體驗

《拍拍二手》微信小程序之環信接入

【源碼下載】一款使用環信實現的開源靈魂社交APP（含服務器）

企業微信機器人在大型財務共享中心的應用實踐

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結