HTK初論

HTK初論

原創

2018-09-02 21:49

HTK（Hidden markov model Tool Kit）是英國劍橋大學工程系在1998年推出的一套語音識別工具箱，2000年時開放了源碼，在這個平臺下，語音研究人員不但可以輕易的試驗各種新式的算法，搭建各種不同的語音識別系統，更可以深入閱讀其源碼，掌握到信號處理、數據結構、算法優化等方面的知識。HTK包含一個底層的靜態庫HTKLib和多個用於搭建語音識別系統的工具HTKTools。HTKLib中，HShell用於輸入輸出管理，HMem用於內存管理，HSigP用於各種信號算法的實現。HTKTools中，HRest、HERest、HMMIRest用於聲學模型訓練，HVite則實現了Viterbi的解碼以及lattice的生成。HTK中還包含了語言模型工具，但使用度不及SRI以及CMU的工具。

一個語音識別系統主要由三個部分組成：

1. 聲學模型

2. 解碼網絡

3. 字典

對於英文，主要以音素（英音和美音的phnset有所不同）爲建模單元，而中文更多的以聲母、韻母爲建模單元，在monophone的基礎上可以進一步擴展到biphone和triphone。HERest以MLE準則建模，HMMIRest以MPE/MWE/MMI爲準則建模。解碼網絡確定瞭解碼的空間，最簡單的解碼網絡是phnloop，音素之間不存在任何約束，解碼速度很快但識別率較低，在LVCSR中，主要由語言模型來生成對應的lattice，當然HDecode可以直接使用語言模型。字典中的內容確定了識別系統的輸出結果。

HTK由純C代碼構成，代碼量大概是10萬行，對於C學習者以及語音識別研究人員這都是一個很好的學習模板，在HTK的基礎上劍橋大學工程系又推出了由C++構成的ATK，用於實時解碼的開發應用並且支持多線程。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

測試人員都是畫畫大神，讓我看看誰還不會用代碼圖？

Object.values()對象遍歷

HTK嵌入式訓練

HTK初論

HTK命令行參數處理

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結