Hmm在語音識別中的應用（一）

原創

quheDiegooo

2018-09-07 23:32

首先Hmm由以下組件組成：

1.Q =q1q2...qN HMM隱含狀態集合

2.A= a01a02...an1...ann 狀態轉移概率矩陣

3.O= o1o2...oN 觀測值，每個觀測值來自字典V= v1,v2,...,vV

4.B= bi(ot) 觀測值似然集合，也叫作發射概率，每一個代表在t時刻，觀察值ot由狀態i產生的概率

5.q0,qend 起始狀態和結束狀態

在語音識別中，HMM的隱含狀態Q狀態是phone 或sub-phone，word,

那麼觀測值O就是對於那個時刻聲音波形的頻譜和能量信息，解碼的過程就是把聲音的頻譜信息映射到phone 或word的過程，具體來說，觀測值是聲音的特徵向量，如MFCC，每個觀測值由39維的數字來表示，每隔10ms產生一個觀測值，那麼1s就有100個觀測向量，每個向量39維。

HMM建模語音識別有多中方式，比如在小集合的語音識別中，HMM隱含狀態可以表示對於的詞，在大一些的語音識別中，HMM隱含狀態代表phone-like單元，那麼詞就是有一串phone-like構成的串。在LVCSR中，一個phone由多個HMM狀態構成，通常的做法是3個隱含狀態代表一個phone。（在kaldi中靜音sil可以配置成由5個Hmm狀態構成）

這時HMM可以表述如下所示：

1.Q = q1q2 ...qN 狀態集合，對應subphone

2.A = a01a02 ...an1 ...ann 狀態轉移概率矩陣,ai j代表每個subphone 自環或者轉移到下一個subhone的概率

3.B = bi(ot ) 觀測值似然集合，也叫作發射概率，表示倒譜特徵向量（觀察值ot）由subphone(狀態i)生成的概率

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Hmm在語音識別中的應用（一）

vue項目獲取富文本編輯器wangEditor內容導出爲word（html轉word格式並下載）

dotnet C# 創建 X11 應用時設置窗口背景顏色

TDengine docker安裝方法

vue3組件通信與props

sapui5

Alpine Linux apk add DNS lookup error

部分JDK版本的發佈時間

工作中用到的腳本合集

合併代碼時Beyond Compare設置

go語言 defer延遲機制

kaldi 聲學模型構建dict過程

caffe 工具digits安裝

caffe 上OpenBLAS的安裝使用

Hmm在語音識別中的應用（一）

Attention在語音識別中的應用(1)

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結