HTK初论

HTK(Hidden markov model Tool Kit)是英国剑桥大学工程系在1998年推出的一套语音识别工具箱,2000年时开放了源码,在这个平台下,语音研究人员不但可以轻易的试验各种新式的算法,搭建各种不同的语音识别系统,更可以深入阅读其源码,掌握到信号处理、数据结构、算法优化等方面的知识。HTK包含一个底层的静态库HTKLib和多个用于搭建语音识别系统的工具HTKTools。HTKLib中,HShell用于输入输出管理,HMem用于内存管理,HSigP用于各种信号算法的实现。HTKTools中,HRest、HERest、HMMIRest用于声学模型训练,HVite则实现了Viterbi的解码以及lattice的生成。HTK中还包含了语言模型工具,但使用度不及SRI以及CMU的工具。
 
一个语音识别系统主要由三个部分组成:
1. 声学模型
2. 解码网络
3. 字典
对于英文,主要以音素(英音和美音的phnset有所不同)为建模单元,而中文更多的以声母、韵母为建模单元,在monophone的基础上可以进一步扩展到biphone和triphone。HERest以MLE准则建模,HMMIRest以MPE/MWE/MMI为准则建模。解码网络确定了解码的空间,最简单的解码网络是phnloop,音素之间不存在任何约束,解码速度很快但识别率较低,在LVCSR中,主要由语言模型来生成对应的lattice,当然HDecode可以直接使用语言模型。字典中的内容确定了识别系统的输出结果。
 
HTK由纯C代码构成,代码量大概是10万行,对于C学习者以及语音识别研究人员这都是一个很好的学习模板,在HTK的基础上剑桥大学工程系又推出了由C++构成的ATK,用于实时解码的开发应用并且支持多线程。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章