深度學習在語音識別中的應用

提起深度學習的再次興起,大家首先可能會想到2012年AlexNet在圖像分類上的突破,但是最早深度學習的大規模應用發生在語音識別領域。自從2006年Geoffrey Hinton提出逐層的Pretraining之後,神經網絡再次進入大家的視野。2009年Geoffrey Hinton和Deng Li把DNN用於聲學模型建模,用於替代GMM,同時大家發現在訓練數據足夠的情況下Pretraining是不必要的。使用了DNN後,語音識別的詞錯誤率相對降低了30%。這裏的深度學習還只是用於替代HMM-GMM裏的GMM,再到後來,End-to-End的語音識別系統的出現,從根本上拋棄了複雜的HMM(包括WFST這樣複雜的解碼算法)。

深度學習和HMM的結合
前面介紹了經典的HMM-GMM模型,這是在深度學習流行前最主流的方法。使用深度神經網絡DNN來替代GMM是深度學習在語音識別的重要進展,它使得語音識別效果有了極大的提高。
我們回顧一下,在HMM-GMM模型裏,我們使用GMM來建模狀態的發射概率P(X|q),也就是狀態q下觀察是X的概率,這裏X通常是當前幀的MFCC特徵。我們不能直接用DNN來建模這個發射概率,因爲DNN是區分性(discriminative)模型而不是生成(generative)模型,它只能得到概率P(q|X),也就是給定觀察,輸出不同狀態的概率。根據公式:
在這裏插入圖片描述
因爲X是已知的,P(X)是個常量,所以我們可以計算:
在這裏插入圖片描述
爲了訓練DNN,我們需要更細粒度的標註,比如q是triphone,那麼我們需要知道每一幀特徵X對應的triphone標籤。讓人來標註是不可能的,我們通常先訓練一個HMM-GMM模型,然後通過Force-Alignment得到triphone級別的標籤用於訓練DNN。
用DNN來替代GMM得到的模型通常叫做HMM-DNN混合(hybrid)模型。除了用DNN替代GMM,還可以用DNN來實現特徵提取,把MFCC特徵再加上DNN的特徵作爲HMM-GMM的特徵,這種特徵叫做Tandem特徵。DNN相當於GMM有如下優點:
GMM的輸入要求各個維度是不相關的,因爲爲了簡化,通常加上GMM的協方差矩陣是對角陣。
DNN可以學習深層次的特徵,這是深度學習相對於傳統機器學習最大的優勢

End-to-End語音識別系統
前面介紹的HMM-DNN模型還是需要使用HMM來建模狀態的時序信息,整個系統還是非常複雜。因此現在也有很多研究放到了End-to-End的語音識別系統,也就是完全拋棄HMM模型。目前End-to-End的系統的效果達到以前最好的系統的水平,比如Google聲稱最新的End-to-End模型,詞錯率降至5.6%,相比傳統的商用方法實現了16%的相對(不是絕對)詞錯誤率下降。
有兩大類的End-to-End系統,一種是使用seq2seq模型,這是非常自然的想法,因爲語音識別的輸入是一個語音波形時序信號,而輸出是詞的序列。這和用於機器翻譯的seq2seq模型基本是類似的,有興趣的讀者可以參考相關論文,如Listen, Attend and Spell, LAS,State-of-the-art Speech Recognition With Sequence-to-Sequence Models,Wav2letter: an end-to-end convnet-based speech recognition system。也可以參考ESPNet、OpenSeq2Seq和Wav2letter++等開源實現。後文我們主要介紹基於CTC模型(損失函數)的End-to-End系統。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章