HMM拓撲
使用c++的HmmTopology來描述音素的HMM拓撲。其描述的一個實例(3-state Bakis模型)如下:
<Topology>
<TopologyEntry>
<ForPhones> 1 2 3 4 5 6 7 8 </ForPhones>
<State> 0 <PdfClass> 0
<Transition> 0 0.5
<Transition> 1 0.5
</State>
<State> 1 <PdfClass> 1
<Transition> 1 0.5
<Transition> 2 0.5
</State>
<State> 2 <PdfClass> 2
<Transition> 2 0.5
<Transition> 3 0.5
</State>
<State> 3
</State>
</TopologyEntry>
</Topology>
在這個實例中只有一個TopologyEntry
,其包括了音素1~8(所以這個例子總共8個音素,這些音素共享相同的拓撲)。有三個發射狀態,每個狀態包括一個自循環和發射到其它狀態的概率。還有最後一個非發射狀態(狀態3,沒有入口)。kaldi把狀態0作爲初始狀態,最後一個狀態作爲作爲終止狀態(無發射狀態,其概率等於1)。HmmTopology
對象中的概率用於初始化訓練。訓練的概率是上下文相關的HMM
並且存儲在TransitionModel
對象。TransitionModel
以c++
類成員的方式存儲HmmTopology
對象。HmmTopology
的轉換概率通常除了初始化TransitionModel
對象其它地方並不會被用到。
Pdf-class
Pdf-class
是和對象HmmTopology
有關的一個對象。HmmTopology
爲每一個音素指定了一個HMM模型,每一個有編號的狀態有兩個變量forward_pdf_class
和self_loop_pdf_class
。self_loop_pdf_class
是轉換到狀態自身的概率,缺省值是和forward_pdf_class
一樣的。但是兩者的概率也可以不一樣。
音素的HMM狀態通常從0開始,連續的(1,2,。。。),這是爲了圖構建的方便。
狀態轉換模型(TransitionModel對象)
TransitionModel
對象存儲了音素的HMM拓撲對應的轉變概率和信息。構建圖的代碼根據TransitionModel
和ContextDependencyInterface
對象來獲得拓撲結構和狀態轉換概率。
狀態轉化概率建模
狀態轉換的概率是和上下文相關的HMM狀態相關的,其依賴如下5項內容(5元組):
- 音素
- 源HMM狀態(
HmmTopology
對象解析,通常是0,1,2…) - 前向概率(
forward-pdf-id
,) - 自循環概率(
self-loop-pdf-id
) HmmTopology
對象的狀態索引
後四項可以看成是目標HMM狀態編碼成HmmTopology
對象。
transition-ids
TrainsitionModel
對象在初始化時建立了音素和整數之間的映射關係,此外還有轉換標識符 (transition identifiers)transition-ids
,轉換索引(transition indexes),轉換狀態(transition states)這些量。引入這些量爲了完全使用基於FST的訓練方法。
TransitionModel
使用的整型標識符
- 音素(從1開始):可以從OpenFst符號表轉換成音頻的名字,並不要求音素是連續標號的。
- hmm狀態(從0開始):用於索引
HmmTopology::TopologyEntry
對象。 - 概率或者pdf-ids(從0開始):源於決策樹聚類後結果,通常一個ASR系統有數以千計的pdf-id.
transition-state
(從1開始):TransitionModel
定義。每一個可能的三元組(音素,hmm狀態,概率)映射到一個獨一無二的轉換狀態。transition-index
(從0開始):是對HmmTopology::HmmState
的索引。transition-id
(從1開始):是狀態轉換模型的轉換概率。二元組(transition-state
,transition-index
)和transition-id
可以互相映射。
轉換模型(transition model)訓練
用於訓練和測試的FST將transition-id
做爲輸入label。在訓練過程中使用維特比解碼獲得輸入transition-id序列(每一個都是一個特徵向量),函數Transition::Update()
對每個transition-state
做最大似然估計。
對齊
和的語句長度一樣的包含一系列transition-ids
的vector向量描述了對齊關係。transition-ids
序列從解碼器得到。對齊用於維特比訓練和測試時自適應。由於transition-ids
編碼了音素信息,可以通過工具SplitToPhones()
和ali-to-phones.cc
根據對齊取出音素序列。
通常kaldi中需要處理由句子索引的對齊集合,這通常使用表的方式來實現。
函數ConvertAlignment()
(命令行是convert-ali
)將對齊從一個狀態轉變模型轉換到另一個模型。
狀態層次後驗概率
狀態級後驗概率是“對齊”概念的擴展,區別在於“對齊”概念上每幀對應一個狀態轉變ID,而狀態級後驗概率每幀的狀態轉變ID的數量沒有限制,且每個狀態ID都有一個權重對應。通常按如下結構存儲:
typedef std::vector<std::vector<std::pair<int32, BaseFloat> > > Posterior;
如果使用Posterior
創建了一個名爲post的對象,則post.size()
將等於句子幀數,post[i]
存儲的是(transition-id, posterior)
信息。
當前程序中,只有兩個方法創建posteriors
。
- 使用
ali-to-post
程序將對齊轉換成後延概率。 - 使用
weight-silence-post
修改後驗概率。
當加入lattice是,也有工具從Lattice生成後驗概率。
高斯層次後驗概率
表示高斯層次的後驗概率類型如下:
typedef std::vector<std::vector<std::pair<int32, Vector<BaseFloat> > > > GauPost;
其狀態是使用向量浮點數來表示的。向量的size和高斯量的數目是一樣的。post-to-gpost
將Posterior
結構轉換成GauPost
結構。使用模型和特徵計算高斯層次的後驗概率。
HMMs轉成FSTs
GetHTransducer()
fst::VectorFst<fst::StdArc>*
GetHTransducer (const std::vector<std::vector<int32> > &ilabel_info,
const ContextDependencyInterface &ctx_dep,
const TransitionModel &trans_model,
const HTransducerConfig &config,
std::vector<int32> *disambig_syms_left);
該函數返回輸入是transition-ids
,輸出是上下文相關音素的FST。FST具有初始和終止狀態,轉換出FST的狀態變換將輸出音素符號。通常轉出FST狀態會轉入一個表示3狀態HMM的結構體中,然後跳到起始狀態。
HTransducerConfig配置類
HTransducerConfig
控制着GetHTransducer
的行爲。
- 變量
trans_prob_scale
是狀態轉變縮放因子。當轉變概率添加到圖裏時,會乘以縮放因子。命令行工具是transition-scale
。
GetHmmAsFst()
函數GetHmmAsFst()
輸入是一段音素,返回的是狀態機最終狀態時得到的transition-ids
序列。
AddSelfLoops()
是向圖中添加自循環。添加自循環的意義是可以進行狀態重新調整,而不加的意義在於決策過程可以更高效。
FST添加狀態轉變概率
函數AddTransitionProbs()
向FST添加概率。這樣可以在無概率時就可以創建圖了。