Hmm在語音識別中的應用(一)

首先Hmm由以下組件組成:

1.Q =q1q2...qN   HMM隱含狀態集合

2.A= a01a02...an1...ann     狀態轉移概率矩陣

3.O= o1o2...oN  觀測值,每個觀測值來自字典V= v1,v2,...,v

4.B= bi(ot)   觀測值似然集合,也叫作發射概率,每一個代表在t時刻,觀察值ot由狀態i產生的概率 

5.q0,qend  起始狀態和結束狀態

在語音識別中,HMM的隱含狀態Q狀態是phone 或sub-phone,word,

那麼觀測值O就是對於那個時刻聲音波形的頻譜和能量信息,解碼的過程就是把聲音的頻譜信息映射到phone 或word的過程,具體來說,觀測值是聲音的特徵向量,如MFCC,每個觀測值由39維的數字來表示,每隔10ms產生一個觀測值,那麼1s就有100個觀測向量,每個向量39維。

HMM建模語音識別有多中方式,比如在小集合的語音識別中,HMM隱含狀態可以表示對於的詞,在大一些的語音識別中,HMM隱含狀態代表phone-like單元,那麼詞就是有一串phone-like構成的串。在LVCSR中,一個phone由多個HMM狀態構成,通常的做法是3個隱含狀態代表一個phone。(在kaldi中靜音sil可以配置成由5個Hmm狀態構成)

這時HMM可以表述如下所示:

1.q1q...qN   狀態集合,對應subphone

2.A a01a02 ...an...ann     狀態轉移概率矩陣,ai j代表每個subphone 自環或者轉移到下一個subhone的概率

3.B bi(o)   觀測值似然集合,也叫作發射概率,表示倒譜特徵向量(觀察值ot)由subphone(狀態i)生成的概率 







發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章