原创 kaldi 聲學模型構建dict過程

kaldi聲學模型訓練,首先需要數據準備, 在數據準備階段需要準備標註數據的發音,處理步驟如下: 1.首先是把訓練數據和測試數據對應的標註(text)合成一個文件到text_all,同時去掉其他非字母和數字的字符串   cat $trai

原创 caffe 工具digits安裝

digits工具是caffe的非常給力的預處理工具,開源地址爲https://github.com/NVIDIA/DIGITS 安裝在Ubuntu16.0.4上安裝命令如下所示: 源代碼安裝方式 1.安裝依賴包: sudo apt-ge

原创 caffe 上OpenBLAS的安裝使用

       BLAS是一個數學函數接口標準,有很多個實現。按照Caffe官方ubuntu的安裝文檔默認安裝的是ATLAS。這個版本的BLAS不能利用多核CPU,我們將其換爲OpenBLAS,可以利用多核CPU並行計算,加快Caffe的分

原创 Hmm在語音識別中的應用(一)

首先Hmm由以下組件組成: 1.Q =q1q2...qN   HMM隱含狀態集合 2.A= a01a02...an1...ann     狀態轉移概率矩陣 3.O= o1o2...oN  觀測值,每個觀測值來自字典V= v1,v2,.

原创 Attention在語音識別中的應用(1)

       從2014年Attention mode在機器翻譯或起來以後,attention model逐漸在語音識別領域中應用,並大放異彩。因此本篇文章就對Attention進行總結和說明。 首先要確定的是Attention是一種權重

原创 Attention在語音識別中的應用(2)

    上一篇文章介紹了Attention機制在語音識別和MNT中的應用,由於上篇文章篇幅較長,所以分出本章對Attention進行繼續介紹。 接下里會介紹2篇文章。 第一篇爲William Chan 等人在2015年8月份提出的比較經典

原创 Sequence discriminative training

       語音識別聲學模型DNN訓練通常用cross-entropy(CE)作爲損失函數進行訓練,CE可以看做是KL散度的一種形式 ,用來評價期望分佈和當前訓練模型概率分佈的差距。方便計算,所以常常被用來作爲損失函數廣泛使用。然而基於

原创 架構-LSTM理解總結(1)

序列建模和語音識別中常使用RNN,LSTM和GRU,本文就對其進行一個整理和總結。 RNN:     雙向RNN解決了上下文依賴問題,一層隱藏層的Bi-RNN結構如下所示[1]: 其中前向網絡ht依賴ht-1,後項網絡ht依賴ht+1,

原创 kaldi 中mono phone訓練過程

kaldi中訓練聲學模型,首先是訓練單音素模型,即mono-phone過程, 本文主要講述mono-phone訓練的過程。 代碼爲steps/train_mono.sh 用法如下所示: steps/train_mono.sh [opti

原创 HMM基礎理論-解碼decoding

HMM 解碼問題描述如下: 給定HMM參數λ = (A,B) ,和觀測序列O = o1,o2,...,oT  ,找到概率最大的隱藏狀態序列Q = q1q2q3 ...qT   解決以上問題,常用算法是Viterbi算法,或Viterb

原创 聲學模型訓練-嵌入式訓練

本章主要講解HMM訓練過程,首先回顧上章的HMM模型如下: Q =q1q2...qN   狀態集合(subphone集合) A =a01a02...an1...ann   狀態(subphone)轉移矩陣,Q

原创 HMM基礎理論-前向算法

本文主要討論HMM要解決的三個基本問題。 並對第一個問題求似然概率進行公式推導和說明。 首先,HMM由以下幾個組件構成: 1.  Q=q1q2...qN   狀態集合 2.  A=a11a12...an1...ann

原创 MFCC語音識別特徵

MFCC全程爲mel frequency cepstral coefficients (梅爾頻率倒譜系數) 過程如下所示: 1.首先是Preemphasis目的是boosting,增加高頻能量,從而提高phone的的識別率 2.然後是

原创 聲學模型訓練-LDA算法

語音識別中,爲了增強音頻特徵的魯棒性,需要提取區分能力較強的特徵向量,常用的方法是PCA和LDA算法。 PCA算法尋找,保留數據中最有效的,最重要的成分,捨去一些冗餘的,包含信息量減少的成分。 LDA算法是通過一個變化矩陣來達到降維的目的

原创 子空間高斯混合模型-SGMM

由於高斯混合模型中參數數量非常大,因此本文提出了子空間高斯混合模型(subspace GMM), HMM在語音識別中的架構如上圖所示,其中HMM狀態j產生觀測序列是由GMM表示: 其中:i 表示GMM模型中component個數,j表