台部落quheDiegooo

語音識別過程中需要對聲學模型進行構圖，即擴展HCLG的過程，擴展是按照H<-C<-L<-G的順序進行的, 首先擴展G, 1.G.fst: The Language Model FST FSA grammar，可以通過n-gram構建得

2018-09-04 18:49:55

kaldi中經常出現ark或者scp，今天就對kaldi I/O進行一下討論， archive（.ark）和 script(.scp) 都是文件格式，這兩種格式都被映成table的格式，一個table是一組有規則的表，前面是比如utt2

2018-09-04 18:49:55

語音頻率特徵人能聽到的聲音頻率範圍：50HZ-20KHZ 人說話聲音的頻率範圍：85HZ-8kHZ CD 是44.1KHZ，16bit採樣現在語音處理常用的語音頻率爲：16kHZ，16bit採樣

2018-09-04 18:49:55

在上一章語音識別過程中提到的P(O|W )稱做觀測最大釋然，由聲學模型計算可得，本章就主要描述HMM+GMM來計算最大釋然的過程。首先回顧一下：在解碼過程中 P(O|W )由聲學模型訓練得到， P(O|W )是W的似然函數，

2018-09-04 18:49:54

HMM中第三個問題就是如何進行對HMM進行訓練A和B 本章主要通過前向-後向（forward-backward）算法或者叫Baum-Welch算法來主要講解如何對矩陣A和B進行訓練 HMM訓練描述爲：給定HMM狀態集合，和一系列觀測序列

2018-09-04 18:49:54

上一篇主要講了triphone 狀態綁定的過程，本文主要講triphone的決策樹聚類過程。基於data-driven的聚類算法，如KNN，有個缺點，就是無法處理訓練數據中沒有出現過的triphone，基於決策樹的聚類可以解決這個問題。

2018-09-04 18:49:54

在發音過程中，因爲協同發音的影響，同一個音素在不同的位置，其發音變化很大，如下圖所示：同樣的元音[eh]在不同的單詞中的發音在頻域上區分非常明顯。因爲單音素monophone 是上下文獨立的（context-independent）

2018-09-04 18:49:53

上一篇討論了語音識別中的訓練過程，本章討論語音識別中，解碼的過程。解碼的過程就是在給定聲學特徵的情況下，找到最可能對應的詞組的過程，再次看如下求解目的的公式：其中似然概率是在一系列給定聲學frame情況下，計算每個對應的分類器得分，

2018-09-04 18:49:44

在語音識別中，常用的評估標準爲詞錯誤率WER， WER計算方式爲：爲了使識別出來的詞序列和標準的詞序列之間保持一致，需要進行替換，刪除，或者插入某些詞，這些插入，替換，刪除的詞的總個數，除以標準的詞序列中詞的個數的百分比，即爲WER，其

2018-09-04 18:49:44