kaldi 语音识别 lattice-free MMI声学训练

原創

2019-02-27 14:46

List item

在语音识别领域，DT训练能显著提高语音识别系统的性能。DT训练需要所有的单词序列组合来做训练。一般而言我们会先利用交叉熵准则训练一个基准模型，配合使用一个相对较弱的语言模型生成相应的词图(lattice).Lattice里面除了包含与正确识别结果相对应的路径外，还包含与正确路径足够接近的其它路径。DT训练就是要提高模型走正确路径的概率，同时压低走相似路径的概率。
近年来CTC(Connectionist Temporal Classification连续时序分类)在语音识别领域广受关注，但CTC相比传统模型的优势，需要在很大数据集上才能体现出来，而且CTC训练速度很慢，参数调节更困难。与DT训练中常用的MMI准则类似，CTC训练准则的目标是最大化正确标注的条件概率，而MMI着重优化正确路径与其它相似路径的概率差。
LF-MMI(lattice-free Maximum Mutual Information)训练准则通过在神经网络输出层计算出来所有可能的标注序列，根据这些标注序列计算出相应的MMI信息和相关的梯度，然后通过梯度传播算法完成训练。
LF-MMI准则训练能够在训练过程中直接计算所有可能路径的后验概率(Posterior Probability),省去了鉴别性训练前需要提前生成lattice的麻烦，所以叫做Lattice-free MMI。
在声学模型方面，LFMMI(即povey的chain-model)。提到了LFMMI是吸取了CTC的优点(无lattice，无force-alignment)，仍基于传统DNN-HMM混合系统进行的改进，性能不差于CTC，最主要的是训练稳定，CTC要大量调参。

kaldi chain-model

MMI训练lattice放在GPU上做(实现时使用了一些trick，包括LM使用4-gram的phone LM等)，不像传统框架下的区分性训练那样生成一个lattice放在那儿，所以叫lattice-free。
借鉴于CTC的一些思路，帧率降到原来的1/3，由于帧率的降低，HMM的结构上做了一些调整，引入了类似CTC里面blank的状态；
防止overfitting，搞了3个正则化。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

kaldi 语音识别 lattice-free MMI声学训练

dual microphone wind noise reduction

網易2018語音算法筆試編程1

matlab實現簡單清濁音檢測

matlab實現以不同信噪比在乾淨語音信號中疊加噪聲

leetcode124.二叉樹中的最大路徑和

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結