原创 lstm(三) 模型壓縮lstmp

lstmp結構 對於傳統的lstm而言 it=δ(Wixxt+Wimmt−1+Wicct−1+bi) ft=δ(Wfxxt+Wfmmt−1+Wfcct−1+bi) ct=ft⊙ct−1+it⊙g(Wcxxt+Wcmmt−1+

原创 kaldi GridEngine

概況 queue.ql: gridengine 多機運行 run.ql: 本地多進程,忽略除了JOB以外的其他參數 queue.pl test.log echo foo \| awk 's/f/F/'; 基本格式 queue.

原创 cuda 編程學習筆記

programming model kernels 類似於c函數,函數定義使用global聲明,使用<<<…>>>形式的execution configuration決定kernal執行的線程數,使用threadIdx變量可以獲得

原创 kaldi mmi/bmmi/mpe/smbr訓練及源碼

訓練流程 make_denlats.sh 產生1gram語言模型對應的解碼網絡 nnet-latgen-faster產生denominator lattice,作爲smbr訓練的分母,充當競爭路徑的作用 align.sh

原创 神經網絡-pnorm

發展歷史 1.bagging算法 Leo Breiman[1]在1994年提出了bagging算法,給定一個大小爲 n的訓練集D,Bagging算法從中均勻、有放回地選出 m個大小爲 n’的子集Di ,作爲新的訓練集。在這m個訓練

原创 kaldi data preparation

主要兩個文件夾data/train和data/lang train 需要手動創建三個文件 - utt2spk - text - wav.scp 以上文件需要提前按照C++方式排序 export LC_ALL=C 然後可以調用

原创 語音合成vocoder(一) 概況

Question1: vocoder在合成中的角色??? 合成概況 語音合成主要有波形拼接和參數合成兩種方法[1]。 波形拼接方法 使用原始語音波形替代參數,合成的語音清晰自然,質量相比於參數合成方法要好。PSOLA(pitch

原创 端到端語音識別(二) ctc

相關筆記 CTC學習筆記(一) 簡介 CTC學習筆記(二) 訓練和公式推導 CTC學習筆記(三) 解碼 CTC學習筆記(四) 解碼-WFST CTC學習筆記(五) eesen訓練源碼 History ICML-2006. Grav

原创 生成對抗網絡GAN(二) 語音相關

多任務對抗學習[1] 爲了獲得對噪音的魯棒性,引入多任務學習,分爲三個網絡: - 輸入網絡(綠色),用作特徵提取器 - senone輸出網絡(紅色),用作senone分類 - domain輸出網絡(藍色),domain這裏指噪

原创 語音合成vocoder(五) synthesis

基本概念 最小相位脈衝響應[1]可以保證波形在時域上基本不變。 根據頻譜包絡求出最小相位響應(減弱時域信號的相位失真),然後IFFT還原爲語音信號 其中A 跟頻譜包絡有關 合成流程 合成[2]分爲三步 1. 根據f0 確定脈衝

原创 聲學特徵轉換 kaldi工具

基本工具 1.transform-feats transform-feats <transform> <input-feats> <output-feats> 其中transform是對應的特徵轉化矩陣,如果transform是rxfi

原创 語音合成vocoder(四) aperiodicity參數

基本概念 “aperiodicity” is defined as the power ratio between the speech signal and the aperiodic component of the signal

原创 聲學特徵變換 LDA

含義 Linear Discriminant Analysis 線性判別式分析是一種降維算法,特徵經過映射以後,在新的空間有最大的類間距離和最小的類內距離;LDA降維的維度跟類別的個數有關 相關公式推導可以參考這篇博客 kaldi實現

原创 聲學特徵變換 STC/MLLT

背景 Global Semi-tied Covariance (STC)/Maximum Likelihood Linear Transform (MLLT) estimation gmm建模方差使用對角矩陣的前提是假設特徵之間相互獨

原创 聲學特徵變換 fMLLR

含義 當測試數據Y 和模型Λx 不匹配的時候,可以通過變換的方式進行匹配[1]: - model-space 也就是Λx 轉化爲Λy - feature-space 也就是Y 轉化爲X 其中model-space的變換又可以分爲