kaldi 语音识别 lattice-free MMI声学训练

  1. List item

在语音识别领域,DT训练能显著提高语音识别系统的性能。DT训练需要所有的单词序列组合来做训练。一般而言我们会先利用交叉熵准则训练一个基准模型,配合使用一个相对较弱的语言模型生成相应的词图(lattice).Lattice里面除了包含与正确识别结果相对应的路径外,还包含与正确路径足够接近的其它路径。DT训练就是要提高模型走正确路径的概率,同时压低走相似路径的概率。
近年来CTC(Connectionist Temporal Classification连续时序分类)在语音识别领域广受关注,但CTC相比传统模型的优势,需要在很大数据集上才能体现出来,而且CTC训练速度很慢,参数调节更困难。与DT训练中常用的MMI准则类似,CTC训练准则的目标是最大化正确标注的条件概率,而MMI着重优化正确路径与其它相似路径的概率差。
LF-MMI(lattice-free Maximum Mutual Information)训练准则通过在神经网络输出层计算出来所有可能的标注序列,根据这些标注序列计算出相应的MMI信息和相关的梯度,然后通过梯度传播算法完成训练。
LF-MMI准则训练能够在训练过程中直接计算所有可能路径的后验概率(Posterior Probability),省去了鉴别性训练前需要提前生成lattice的麻烦,所以叫做Lattice-free MMI。
在声学模型方面,LFMMI(即povey的chain-model)。提到了LFMMI是吸取了CTC的优点(无lattice,无force-alignment),仍基于传统DNN-HMM混合系统进行的改进,性能不差于CTC,最主要的是训练稳定,CTC要大量调参。

  1. kaldi chain-model
  • MMI训练lattice放在GPU上做(实现时使用了一些trick,包括LM使用4-gram的phone LM等),不像传统框架下的区分性训练那样生成一个lattice放在那儿,所以叫lattice-free。
  • 借鉴于CTC的一些思路,帧率降到原来的1/3,由于帧率的降低,HMM的结构上做了一些调整,引入了类似CTC里面blank的状态;
  • 防止overfitting,搞了3个正则化。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章