kaldi 1d-CNN源碼

原創

2020-06-21 23:01

CNN

nnet/nnet-convolutional-component.h

假設CNN相關參數如下

###輸入相關參數
num_splice=3                                            #語音數據的左右context，此處左右一幀
path_stride=5                                           #一幀特徵的維度
input_dim=path_stride*num_splice=15                     #輸入特徵的維度

###濾波器相關參數
num_filters=2                                           #濾波器個數
patch_dim=2                                             #濾波器在一幀特徵上面的維度
filter_dim=num_splice*patch_dim=6                       #濾波器在3幀特徵上的維度
patch_step=1                                            #patch移動的步長

###輸出相關參數
num_patch=1 + (patch_stride - patch_dim) / patch_step=4 #每個濾波器在特徵上面做卷積的次數（即輸出個數）
output_dim=num_patch*num_filters=8                      #cnn的輸出維度

###多幀並行的參數
frame_num=2                                             #一次計算特徵的個數

PropagateFnc

首先將特徵按照splice重新組織成vectorized_feature_patches，然後跟對應的filters做卷積

BackpropagateFnc

計算對輸入的梯度（向後繼續傳播）

Update

計算對參數的梯度（用於參數更新）

Max-Pooling

在後向傳遞梯度的時候只在最大值對應的邊傳遞，其他值的梯度爲0.

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Decoding-graph creation recipe (training time) （kaldi翻譯+個人理解）

kaldi的圖創建過程在訓練階段與測試階段相比而言要相對簡單一點，主要是因爲不需要消歧符號，我們假定你已經讀了這個recipe的test階段，然而我沒讀，，，。在訓練過程中我們採用和test階段相同的HCLG形式，除了G是由一個符合訓練

2020-06-20 14:13:31

純PyTorch語音工具包SpeechBrain開源，Kaldi：我壓力有點大

距離 Mirco Ravanelli 宣佈打造新的語音工具包過去了一年多，SpeechBrain 真的如期而至。語音處理技術的進步，是人工智能改變大衆的生活的重要一環

2021-04-06 21:32:08

Cloudam雲端，雲上高性能算力平臺助力人工智能

隨着企業上雲和數字化轉型升級的不斷深化，雲計算在人工智能領域的重要作用日漸凸顯，許多人工智能模型訓練都需要高性能計算。CLOUDAM雲端自主研發的雲E算力平臺能夠爲有算力需求的企業和個人用戶提供解決方案及算力服務。我們通過一個人工智能的案

2021-03-22 21:26:59

Mac 下編譯 Kaldi Android (arm) .so 庫

話說之前公司裏面一直用到的是 PocketSphinx , 但是在新的項目中有一個應用的場景，這時候發現噪聲影響以及識別的精確度方面都不是很理想。於是在 Telegram Channel 裏面諮詢了下，@nshmyrev 回覆建議可以利用

2021-02-04 21:27:33

Kaldi(A5)語言模型及HCLG.fst生成

這節介紹一下如何修改生成適合自己場景的語言模型。 Ref Online decoding in Kaldi(Nnet2) http://kaldi-asr.org/doc/online_decoding.html 修改語言模型首先，我

2021-01-30 09:59:39

kaldi tutorial 中文翻譯

數據準備這部分基本略過了，比較簡單。從data/lang說起。 data/lang是由prepare_lang.sh 生成的。首先生成的是 words.txt 和 phones.t

2020-07-05 22:38:00

py 直接提取f0

import pyworld as pw import soundfile as sf WAV_FILE = "aa.wav" x, fs = sf.read(WAV_FILE) f0, sp, ap = pw.wav2world(x,

2020-07-04 05:40:53

kaldi utils/filter_scp.pl腳本解釋

kaldi utils/filter_scp.pl腳本解釋1 用法2 中文解釋3 作用4 注意 1 用法 # This script takes a list of utterance-ids or any file whose

2020-07-04 02:19:45

windows 下kaldi配置

一個月前windows剛好宣傳了WSL2對GPU的支持，雖然WSL一直因爲對IO支持不佳被詬病，但是從簡潔性來看還是很值得想學linux但又不想配置虛擬機的同學們的。剛好自己想在本地配置個kaldi，這裏就介紹一下這一系列配置

2020-06-30 01:10:39

kaldi學習之彙總

一、特有名詞 acoustic scale:　通常設置爲0.1，意味着聲學模型的log概率得到的權重遠低於語言模型。在Score的腳本中，經常會看到一系列要搜索的語言模型權重（例如7到15的範圍）。這些可以解釋爲聲acoustic sc

2020-06-25 11:55:28

kaldi語音識別

Kaldi語音識別之--Timit語音數據訓練1.timit實例1.1 timit數據集下載1.2修改run.sh1.3 修改運行環境cmd.sh1.4 運行run.sh(出現錯誤)1.5 再次執行./run.sh2.訓練結束後生

王延凯的博客

2020-06-22 19:13:33

kaldi feature extraction

支持提取mfcc/plp特徵，和HTK特徵的主要差別在於默認參數值的設定。使用選項-htk-compat=true以及合適的參數，可以得到htk特徵。全局CMVN compute-cmvn-stats 假設幀數爲i，特徵維度爲j

2020-06-22 00:36:57

kaldi NFS/GlusterFS

NFS 詳細介紹參考《鳥哥的LINUX私房菜-服務器架設篇》第十三章主要流程 server端配置安裝兩個軟件：rpcbind和nfs-utils 配置/etc/exports <DIR> *(rw,no_root_squ

2020-06-21 23:36:50

kaldi 1d-CNN網絡結構

生成nnet.proto utils/nnet/make_cnn_proto.py 假設輸入26維的fbank，feat_raw_dim=26，splice_num=8，delta_order=0： num_filters1

2020-06-21 23:01:12

kaldi 神經網絡

overview type author CPU/GPU feature nnet1 Karel GPU單卡訓練使用pre-training，使用early stopping nnet2 Dan 支持多GPU訓

2020-06-21 23:00:56

24小時熱門文章

最新文章

最新評論文章