原创 kaldi feature extraction

支持提取mfcc/plp特徵,和HTK特徵的主要差別在於默認參數值的設定。使用選項-htk-compat=true以及合適的參數,可以得到htk特徵。 全局CMVN compute-cmvn-stats 假設幀數爲i,特徵維度爲j

原创 kaldi NFS/GlusterFS

NFS 詳細介紹參考《鳥哥的LINUX私房菜-服務器架設篇》第十三章 主要流程 server端配置 安裝兩個軟件:rpcbind和nfs-utils 配置/etc/exports <DIR> *(rw,no_root_squ

原创 kaldi 1d-CNN源碼

CNN nnet/nnet-convolutional-component.h 假設CNN相關參數如下 ###輸入相關參數 num_splice=3

原创 cuda 概況和安裝

下載安裝 參考官網 概況 cuda是英偉達公司的並行計算平臺和編程模型,利用GPU加速計算。 nvidia產品包括: - Tesla: super computing - Quadro: professional visu

原创 kaldi 1d-CNN網絡結構

生成nnet.proto utils/nnet/make_cnn_proto.py 假設輸入26維的fbank,feat_raw_dim=26,splice_num=8,delta_order=0: num_filters1

原创 kaldi 神經網絡

overview type author CPU/GPU feature nnet1 Karel GPU單卡訓練 使用pre-training,使用early stopping nnet2 Dan 支持多GPU訓

原创 神經網絡-LFR model

CLDNN[1] 不同的網絡結構有不同的優勢 - CNN擅長減少頻率偏移 - LSTM擅長對時序信號進行建模 - DNN可以對特徵做更高階的抽象,更容易進行分類 CLDNN依次將CNN/LSTM/DNN進行串聯組合成一

原创 語音合成vocoder(三) spectral envelope參數

基本概念[1] spectral envelope的三個性質: - 包絡線連接峯值,並且緊緊包裹幅度譜 - 包絡線不能震盪太劇烈,需要平滑 - 包絡線不能有corner 語音信號可以模擬爲激勵脈衝序列與聲道衝激響應的離

原创 神經網絡-CNN結構和語音識別應用

一、基本結構 入門介紹:https://ujjwalkarn.me/2016/08/11/intuitive-explanation-convnets/ 參考deep learning. Ian Goodfellow的chapt

原创 CTC學習筆記(五) eesen訓練源碼

essen源碼參考https://github.com/yajiemiao/eesen,這裏簡單說一下涉及到訓練前後向的核心算法源碼實現。 以單句訓練爲準(多句並行類似),用到的變量 變量 含義 phones_num

原创 kaldi I/O機制

擴展文件名 使用擴展的文件名來表示輸入輸出: - rxfilename表示讀取的數據流,比如file/stream/standard input - wxfilename表示輸出的數據流 1.rxfilename 類型包括

原创 Deep Speech筆記

Deep Speech 1 Hannun, A., Case, C., Casper, J., Catanzaro, B., Diamos, G.,Elsen, E., Prenger, R., Satheesh, S., S

原创 聲學模型學習筆記(七) advanced deep models

multitask and transfer learning multitask learning:不同的任務網絡,可以共享一部分網絡結構(比如說某個隱層) transfer learning:遷移學習 SHL-MDNN

原创 kaldi lattice

概況 兩種lattice結構 Lattice結構 FST的形式,weight包括兩部分(graph cost和acoustic cost),輸入是transition-ids,輸出是words。 其中weight的graph

原创 arm平臺和相關的矩陣運算庫

一、arm平臺 ARM(Acorn RISC Machine,後改爲Advanced RISC Machine)是一個32位精簡指令集(RISC)處理器架構,其廣泛地使用在許多嵌入式系統設計。類比於服務端的X86,其他的架構還有M