kaldi 語音識別 lattice-free MMI聲學訓練

原創

2019-02-27 14:46

List item

在語音識別領域，DT訓練能顯著提高語音識別系統的性能。DT訓練需要所有的單詞序列組合來做訓練。一般而言我們會先利用交叉熵準則訓練一個基準模型，配合使用一個相對較弱的語言模型生成相應的詞圖(lattice).Lattice裏面除了包含與正確識別結果相對應的路徑外，還包含與正確路徑足夠接近的其它路徑。DT訓練就是要提高模型走正確路徑的概率，同時壓低走相似路徑的概率。
近年來CTC(Connectionist Temporal Classification連續時序分類)在語音識別領域廣受關注，但CTC相比傳統模型的優勢，需要在很大數據集上才能體現出來，而且CTC訓練速度很慢，參數調節更困難。與DT訓練中常用的MMI準則類似，CTC訓練準則的目標是最大化正確標註的條件概率，而MMI着重優化正確路徑與其它相似路徑的概率差。
LF-MMI(lattice-free Maximum Mutual Information)訓練準則通過在神經網絡輸出層計算出來所有可能的標註序列，根據這些標註序列計算出相應的MMI信息和相關的梯度，然後通過梯度傳播算法完成訓練。
LF-MMI準則訓練能夠在訓練過程中直接計算所有可能路徑的後驗概率(Posterior Probability),省去了鑑別性訓練前需要提前生成lattice的麻煩，所以叫做Lattice-free MMI。
在聲學模型方面，LFMMI(即povey的chain-model)。提到了LFMMI是吸取了CTC的優點(無lattice，無force-alignment)，仍基於傳統DNN-HMM混合系統進行的改進，性能不差於CTC，最主要的是訓練穩定，CTC要大量調參。

kaldi chain-model

MMI訓練lattice放在GPU上做(實現時使用了一些trick，包括LM使用4-gram的phone LM等)，不像傳統框架下的區分性訓練那樣生成一個lattice放在那兒，所以叫lattice-free。
借鑑於CTC的一些思路，幀率降到原來的1/3，由於幀率的降低，HMM的結構上做了一些調整，引入了類似CTC裏面blank的狀態；
防止overfitting，搞了3個正則化。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

kaldi 語音識別 lattice-free MMI聲學訓練

如何使用 JS 判斷用戶是否處於活躍狀態

通過HPA+CronHPA組合應對業務複雜彈性伸縮場景

❤️‍🔥 Solon Cloud Event 新的事務特性與應用

dual microphone wind noise reduction

網易2018語音算法筆試編程1

matlab實現簡單清濁音檢測

matlab實現以不同信噪比在乾淨語音信號中疊加噪聲

leetcode124.二叉樹中的最大路徑和

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結