HMM学习笔记2

原創

sprt

2020-02-23 06:00

HMM学习笔记2

再请教了大神时候，发现前面并没有走对路子，有很多问题没有搞懂，记录在这里希望指正。

工作：

1、找到几个版本的HMM：

（1、 HTK（Hidden Markov Model Toolkit）：

　　HTK是英国剑桥大学开发的一套基于C语言的隐马尔科夫模型工具箱，主要应用于语音识别、语音合成的研究，也被用在其他领域，如字符识别和DNA排序等。HTK是重量级的HMM版本。

　　HTK主页：http://htk.eng.cam.ac.uk/

（2、 GHMM Library：
　　GHMM主页：http://www.ghmm.org/

（3、 UMDHMM（Hidden Markov Model Toolkit）：

UMDHMM主页：http://www.kanungo.com/software/software.html

看懂UMDHMM中前线算法、维特比算法、前向-后向算法的程序，测试并加注释。

2、利用kaldi中单音素训练的例子：

数据库：timit；

特征：39维MFCC并作CMVN；

声学模型：HMM。

结果：

---------------------------------DevSet------------------------------------------

%WER 31.7 | 40015057 | 71.8 19.5 8.7 3.5 31.7 100.0 | -0.457 |

--------------------------------TestSet------------------------------------------

%WER 32.7 | 1927215 | 70.5 19.8 9.6 3.2 32.7 100.0 | -0.482 |

问题：

1、结果的阅读；

2、在kaldi工具箱中，自带的gmm和hmm模块是分开编写的，放在不同的文件夹中。但是在之前看的理论中，GMM-HMM系统的声学模型部分通常是写在一起的。网上查到有关kaldi的资料中显示，将gmm类写好之后，是用hmm程序来调用的（hmm-topology），但是在所跑的例子中，脚本直接调用的是make好的gmm模块。并且，在工具箱中我也没有找到make完成的hmm可执行文件。

3、分别阅读了kaldi中gmm程序和hmm程序，大部分没有明白。其中gmm部分本来了解不多，而hmm部分与理论中讲到的算法并不相同。在kaldi中训练模块用Viterbi加fst来实现而并不是前面介绍的前向-后向算法，迭代到一定次数认为结束。这种算法可以让训练速度更快，想要全面了解需要先了解一下kaldi中嵌入式训练的内容。

4、kaldi在训练hmm过程中引入了一个关键的概念：“对齐”。

我的理解是，对齐就是找到每一帧对应的状态。程序在初始化状态向量时用的是全局的均值和方差，每个状态对应多个帧数的特征（任意分配的），例如10帧，通常在计算时，会将这10帧的均值和方差放到一起计算，其中用到EM算法。然后利用Viterbi算法：第一帧来时，我们可以默认为第一个状态，那么下一帧来时我们根据viterbi更新的公式，可以看下图的算法来得到一条路径，这个路径我们会知道每帧分别对应的是哪个状态。

总结来说，kaldi中hmm训练分以下四步：

（1. 单高斯模型的初始化，这里均值和方差我们使用全局的均值和方差；

（2. 生成每个句子的topo结构；

（3. 首先给每个状态分配相同的帧数，然后开始做对齐；

（4. 迭代做对齐，然后计算每个音素对应的HMM。

以上是我自己归纳，需要验证正确性。

5、kaldi在初始化向量时用到了聚类机制，需要进一步了解。

6、如何利用hmm-topology生成topo结构，并计算状态转移矩阵。

下一步工作：

在实际连续语音识别的训练过程中，通常用三因素训练（考虑了上下文的影响），现在可以查到的资料大部分针对三因素做处理。三因素模型的训练过程与单音素类似，其实只是状态变了而已。

第一步就是单音素到三音素的过程。假如我们有60个单因素，那么总共有60的三次方个三音素。

第二步就是聚类，这里主要使用决策树来完成。kaldi里也不需要我们去做，这个我们只要设定一些参数就可以。这个目的就是减少计算。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

HMM学习笔记2

使用neovim打造go ide(支持代码跳转, 代码补全, 实时语法检查)

挑战程序设计竞赛 2.3章习题 poj 3046 Ant Counting

Shell/Python中的用户名获取

2015年語音識別文獻閱讀報告

語音識別的基礎知識與CMUsphinx介紹

史上最詳細最容易理解的HMM文章 .

語音的基本概念--譯自CMU sphinx

HMM學習筆記1

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結