kaldi 語音識別 lattice-free MMI聲學訓練

  1. List item

在語音識別領域,DT訓練能顯著提高語音識別系統的性能。DT訓練需要所有的單詞序列組合來做訓練。一般而言我們會先利用交叉熵準則訓練一個基準模型,配合使用一個相對較弱的語言模型生成相應的詞圖(lattice).Lattice裏面除了包含與正確識別結果相對應的路徑外,還包含與正確路徑足夠接近的其它路徑。DT訓練就是要提高模型走正確路徑的概率,同時壓低走相似路徑的概率。
近年來CTC(Connectionist Temporal Classification連續時序分類)在語音識別領域廣受關注,但CTC相比傳統模型的優勢,需要在很大數據集上才能體現出來,而且CTC訓練速度很慢,參數調節更困難。與DT訓練中常用的MMI準則類似,CTC訓練準則的目標是最大化正確標註的條件概率,而MMI着重優化正確路徑與其它相似路徑的概率差。
LF-MMI(lattice-free Maximum Mutual Information)訓練準則通過在神經網絡輸出層計算出來所有可能的標註序列,根據這些標註序列計算出相應的MMI信息和相關的梯度,然後通過梯度傳播算法完成訓練。
LF-MMI準則訓練能夠在訓練過程中直接計算所有可能路徑的後驗概率(Posterior Probability),省去了鑑別性訓練前需要提前生成lattice的麻煩,所以叫做Lattice-free MMI。
在聲學模型方面,LFMMI(即povey的chain-model)。提到了LFMMI是吸取了CTC的優點(無lattice,無force-alignment),仍基於傳統DNN-HMM混合系統進行的改進,性能不差於CTC,最主要的是訓練穩定,CTC要大量調參。

  1. kaldi chain-model
  • MMI訓練lattice放在GPU上做(實現時使用了一些trick,包括LM使用4-gram的phone LM等),不像傳統框架下的區分性訓練那樣生成一個lattice放在那兒,所以叫lattice-free。
  • 借鑑於CTC的一些思路,幀率降到原來的1/3,由於幀率的降低,HMM的結構上做了一些調整,引入了類似CTC裏面blank的狀態;
  • 防止overfitting,搞了3個正則化。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章