kaldi 1d-CNN源码

原創

2020-06-21 23:01

CNN

nnet/nnet-convolutional-component.h

假设CNN相关参数如下

###输入相关参数
num_splice=3                                            #语音数据的左右context，此处左右一帧
path_stride=5                                           #一帧特征的维度
input_dim=path_stride*num_splice=15                     #输入特征的维度

###滤波器相关参数
num_filters=2                                           #滤波器个数
patch_dim=2                                             #滤波器在一帧特征上面的维度
filter_dim=num_splice*patch_dim=6                       #滤波器在3帧特征上的维度
patch_step=1                                            #patch移动的步长

###输出相关参数
num_patch=1 + (patch_stride - patch_dim) / patch_step=4 #每个滤波器在特征上面做卷积的次数（即输出个数）
output_dim=num_patch*num_filters=8                      #cnn的输出维度

###多帧并行的参数
frame_num=2                                             #一次计算特征的个数

PropagateFnc

首先将特征按照splice重新组织成vectorized_feature_patches，然后跟对应的filters做卷积

BackpropagateFnc

计算对输入的梯度（向后继续传播）

Update

计算对参数的梯度（用于参数更新）

Max-Pooling

在后向传递梯度的时候只在最大值对应的边传递，其他值的梯度为0.

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Decoding-graph creation recipe (training time) （kaldi翻译+个人理解）

kaldi的圖創建過程在訓練階段與測試階段相比而言要相對簡單一點，主要是因爲不需要消歧符號，我們假定你已經讀了這個recipe的test階段，然而我沒讀，，，。在訓練過程中我們採用和test階段相同的HCLG形式，除了G是由一個符合訓練

2020-06-20 14:13:31

纯PyTorch语音工具包SpeechBrain开源，Kaldi：我压力有点大

距離 Mirco Ravanelli 宣佈打造新的語音工具包過去了一年多，SpeechBrain 真的如期而至。語音處理技術的進步，是人工智能改變大衆的生活的重要一環

2021-04-06 21:32:08

Cloudam云端，云上高性能算力平台助力人工智能

隨着企業上雲和數字化轉型升級的不斷深化，雲計算在人工智能領域的重要作用日漸凸顯，許多人工智能模型訓練都需要高性能計算。CLOUDAM雲端自主研發的雲E算力平臺能夠爲有算力需求的企業和個人用戶提供解決方案及算力服務。我們通過一個人工智能的案

2021-03-22 21:26:59

Mac 下编译 Kaldi Android (arm) .so 库

話說之前公司裏面一直用到的是 PocketSphinx , 但是在新的項目中有一個應用的場景，這時候發現噪聲影響以及識別的精確度方面都不是很理想。於是在 Telegram Channel 裏面諮詢了下，@nshmyrev 回覆建議可以利用

2021-02-04 21:27:33

Kaldi(A5)语言模型及HCLG.fst生成

這節介紹一下如何修改生成適合自己場景的語言模型。 Ref Online decoding in Kaldi(Nnet2) http://kaldi-asr.org/doc/online_decoding.html 修改語言模型首先，我

2021-01-30 09:59:39

kaldi tutorial 中文翻译

數據準備這部分基本略過了，比較簡單。從data/lang說起。 data/lang是由prepare_lang.sh 生成的。首先生成的是 words.txt 和 phones.t

2020-07-05 22:38:00

py 直接提取f0

import pyworld as pw import soundfile as sf WAV_FILE = "aa.wav" x, fs = sf.read(WAV_FILE) f0, sp, ap = pw.wav2world(x,

2020-07-04 05:40:53

kaldi utils/filter_scp.pl脚本解释

kaldi utils/filter_scp.pl腳本解釋1 用法2 中文解釋3 作用4 注意 1 用法 # This script takes a list of utterance-ids or any file whose

2020-07-04 02:19:45

windows 下kaldi配置

一個月前windows剛好宣傳了WSL2對GPU的支持，雖然WSL一直因爲對IO支持不佳被詬病，但是從簡潔性來看還是很值得想學linux但又不想配置虛擬機的同學們的。剛好自己想在本地配置個kaldi，這裏就介紹一下這一系列配置

2020-06-30 01:10:39

kaldi学习之汇总

一、特有名詞 acoustic scale:　通常設置爲0.1，意味着聲學模型的log概率得到的權重遠低於語言模型。在Score的腳本中，經常會看到一系列要搜索的語言模型權重（例如7到15的範圍）。這些可以解釋爲聲acoustic sc

2020-06-25 11:55:28

kaldi语音识别

Kaldi語音識別之--Timit語音數據訓練1.timit實例1.1 timit數據集下載1.2修改run.sh1.3 修改運行環境cmd.sh1.4 運行run.sh(出現錯誤)1.5 再次執行./run.sh2.訓練結束後生

王延凯的博客

2020-06-22 19:13:33

kaldi feature extraction

支持提取mfcc/plp特徵，和HTK特徵的主要差別在於默認參數值的設定。使用選項-htk-compat=true以及合適的參數，可以得到htk特徵。全局CMVN compute-cmvn-stats 假設幀數爲i，特徵維度爲j

2020-06-22 00:36:57

kaldi NFS/GlusterFS

NFS 詳細介紹參考《鳥哥的LINUX私房菜-服務器架設篇》第十三章主要流程 server端配置安裝兩個軟件：rpcbind和nfs-utils 配置/etc/exports <DIR> *(rw,no_root_squ

2020-06-21 23:36:50

kaldi 1d-CNN网络结构

生成nnet.proto utils/nnet/make_cnn_proto.py 假設輸入26維的fbank，feat_raw_dim=26，splice_num=8，delta_order=0： num_filters1

2020-06-21 23:01:12

kaldi 神经网络

overview type author CPU/GPU feature nnet1 Karel GPU單卡訓練使用pre-training，使用early stopping nnet2 Dan 支持多GPU訓

2020-06-21 23:00:56

24小時熱門文章

最新文章

最新評論文章