原创 聲學模型構圖過程-HCLG

語音識別過程中需要對聲學模型進行構圖,即擴展HCLG的過程, 擴展是按照H<-C<-L<-G的順序進行的, 首先擴展G, 1.G.fst: The Language Model FST FSA grammar,可以通過n-gram構建得

原创 kaldi I/O

kaldi中經常出現ark或者scp,今天就對kaldi I/O進行一下討論, archive(.ark) 和 script(.scp) 都是文件格式,這兩種格式都被映成table的格式,一個table是一組有規則的表,前面是比如utt2

原创 語音頻率特徵

語音頻率特徵 人能聽到的聲音頻率範圍:50HZ-20KHZ 人說話聲音的頻率範圍:85HZ-8kHZ CD 是44.1KHZ,16bit採樣 現在語音處理常用的語音頻率爲:16kHZ,16bit採樣

原创 語音識別中聲學模型訓練過程-GMM(一)

在上一章語音識別過程中提到的P(O|W )稱做觀測最大釋然,由聲學模型計算可得,本章就主要描述HMM+GMM來計算最大釋然的過程。 首先回顧一下:在解碼過程中 P(O|W )由聲學模型訓練得到, P(O|W )是W的似然函數,

原创 HMM基礎-HMM訓練-前向後向算法

HMM中第三個問題就是如何進行對HMM進行訓練A和B 本章主要通過前向-後向(forward-backward)算法或者叫Baum-Welch算法來主要講解如何對矩陣A和B進行訓練 HMM訓練描述爲: 給定HMM狀態集合,和一系列觀測序列

原创 上下文相關音素-決策樹聚類

上一篇主要講了triphone 狀態綁定的過程,本文主要講triphone的決策樹聚類過程。 基於data-driven的聚類算法,如KNN,有個缺點,就是無法處理訓練數據中沒有出現過的triphone,基於決策樹的聚類可以解決這個問題。

原创 上下文相關音素-狀態綁定

在發音過程中,因爲協同發音的影響,同一個音素在不同的位置,其發音變化很大,如下圖所示: 同樣的元音[eh]在不同的單詞中的發音在頻域上區分非常明顯。 因爲單音素monophone 是上下文獨立的(context-independent)

原创 語音識別-解碼過程

上一篇討論了語音識別中的訓練過程,本章討論語音識別中,解碼的過程。 解碼的過程就是在給定聲學特徵的情況下,找到最可能對應的詞組的過程,再次看如下求解目的的公式: 其中似然概率是在一系列給定聲學frame情況下,計算每個對應的分類器得分,

原创 語音識別評估標準-WER

在語音識別中,常用的評估標準爲詞錯誤率WER, WER計算方式爲:爲了使識別出來的詞序列和標準的詞序列之間保持一致,需要進行替換,刪除,或者插入某些詞, 這些插入,替換,刪除的詞的總個數,除以標準的詞序列中詞的個數的百分比,即爲WER,其