HTK初论

HTK初论

原創

2018-09-02 21:49

HTK（Hidden markov model Tool Kit）是英国剑桥大学工程系在1998年推出的一套语音识别工具箱，2000年时开放了源码，在这个平台下，语音研究人员不但可以轻易的试验各种新式的算法，搭建各种不同的语音识别系统，更可以深入阅读其源码，掌握到信号处理、数据结构、算法优化等方面的知识。HTK包含一个底层的静态库HTKLib和多个用于搭建语音识别系统的工具HTKTools。HTKLib中，HShell用于输入输出管理，HMem用于内存管理，HSigP用于各种信号算法的实现。HTKTools中，HRest、HERest、HMMIRest用于声学模型训练，HVite则实现了Viterbi的解码以及lattice的生成。HTK中还包含了语言模型工具，但使用度不及SRI以及CMU的工具。

一个语音识别系统主要由三个部分组成：

1. 声学模型

2. 解码网络

3. 字典

对于英文，主要以音素（英音和美音的phnset有所不同）为建模单元，而中文更多的以声母、韵母为建模单元，在monophone的基础上可以进一步扩展到biphone和triphone。HERest以MLE准则建模，HMMIRest以MPE/MWE/MMI为准则建模。解码网络确定了解码的空间，最简单的解码网络是phnloop，音素之间不存在任何约束，解码速度很快但识别率较低，在LVCSR中，主要由语言模型来生成对应的lattice，当然HDecode可以直接使用语言模型。字典中的内容确定了识别系统的输出结果。

HTK由纯C代码构成，代码量大概是10万行，对于C学习者以及语音识别研究人员这都是一个很好的学习模板，在HTK的基础上剑桥大学工程系又推出了由C++构成的ATK，用于实时解码的开发应用并且支持多线程。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

lightdb hash index的性能和限制

HTK嵌入式訓練

HTK初論

HTK命令行參數處理

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結