HTK初論

HTK(Hidden markov model Tool Kit)是英國劍橋大學工程系在1998年推出的一套語音識別工具箱,2000年時開放了源碼,在這個平臺下,語音研究人員不但可以輕易的試驗各種新式的算法,搭建各種不同的語音識別系統,更可以深入閱讀其源碼,掌握到信號處理、數據結構、算法優化等方面的知識。HTK包含一個底層的靜態庫HTKLib和多個用於搭建語音識別系統的工具HTKTools。HTKLib中,HShell用於輸入輸出管理,HMem用於內存管理,HSigP用於各種信號算法的實現。HTKTools中,HRest、HERest、HMMIRest用於聲學模型訓練,HVite則實現了Viterbi的解碼以及lattice的生成。HTK中還包含了語言模型工具,但使用度不及SRI以及CMU的工具。
 
一個語音識別系統主要由三個部分組成:
1. 聲學模型
2. 解碼網絡
3. 字典
對於英文,主要以音素(英音和美音的phnset有所不同)爲建模單元,而中文更多的以聲母、韻母爲建模單元,在monophone的基礎上可以進一步擴展到biphone和triphone。HERest以MLE準則建模,HMMIRest以MPE/MWE/MMI爲準則建模。解碼網絡確定瞭解碼的空間,最簡單的解碼網絡是phnloop,音素之間不存在任何約束,解碼速度很快但識別率較低,在LVCSR中,主要由語言模型來生成對應的lattice,當然HDecode可以直接使用語言模型。字典中的內容確定了識別系統的輸出結果。
 
HTK由純C代碼構成,代碼量大概是10萬行,對於C學習者以及語音識別研究人員這都是一個很好的學習模板,在HTK的基礎上劍橋大學工程系又推出了由C++構成的ATK,用於實時解碼的開發應用並且支持多線程。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章