kaldi 說話人自適應

原創

落红灬有丶情

2018-08-27 07:21

自適應的作用是，補償實際數據與已經訓練的三音素模型中聲學條件不匹配的問題，包括說話人特性（說話方式、口音等）及環境特性（如錄音設備、房間混響等）。在GMM-HMM模型中，自適應方法有特徵空間變換和模型空間變換。Kaldi中主要採用的是特徵空間變換方法： LDA、MLLT和fMLLR，其本質都是在訓練過程中估計變換矩陣，然後構造變換後的特徵，再迭代訓練新的聲學模型參數。LDA+MLLT針對環境特性，拼接上下文多幀數據，再通過特徵變換進行降維處理，因爲與說話人無關，所以估計的是全局矩陣。fMLLR針對說話人特性，基於每個說話人或每個utterance進行變換矩陣估計。在DNN-HMM模型中，由於DNN的鑑別特性，GMM下的自適應方法不能直接拿來用，DNN下的自適應方法主要有線性變換、正則項法、子空間法（i-vector）。

自適應的作用是，補償實際數據與已經訓練的三音素模型中聲學條件不匹配的問題，包括說話人特性（說話方式、口音等）及環境特性（如錄音設備、房間混響等）。在GMM-HMM模型中，自適應方法有特徵空間變換和模型空間變換。Kaldi中主要採用的是特徵空間變換方法： LDA、MLLT和fMLLR，其本質都是在訓練過程中估計變換矩陣，然後構造變換後的特徵，再迭代訓練新的聲學模型參數。LDA+MLLT針對環境特性，拼接上下文多幀數據，再通過特徵變換進行降維處理，因爲與說話人無關，所以估計的是全局矩陣。fMLLR針對說話人特性，基於每個說話人或每個utterance進行變換矩陣估計。在DNN-HMM模型中，由於DNN的鑑別特性，GMM下的自適應方法不能直接拿來用，DNN下的自適應方法主要有線性變換、正則項法、子空間法（i-vector）。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Decoding-graph creation recipe (training time) （kaldi翻譯+個人理解）

kaldi的圖創建過程在訓練階段與測試階段相比而言要相對簡單一點，主要是因爲不需要消歧符號，我們假定你已經讀了這個recipe的test階段，然而我沒讀，，，。在訓練過程中我們採用和test階段相同的HCLG形式，除了G是由一個符合訓練

2020-06-20 14:13:31

Kaldi-Timit 訓練

Kaldi-Timit 訓練背景這篇博客主要記錄使用Kaldi和Timit數據集訓練模型的過程以及遇到的問題及解決方法。 Timit數據介紹製作方 Timit是幾個研究機構聯合收集的，文本材料由Massachusett

2020-07-07 08:45:10

kaldi tutorial 中文翻譯

數據準備這部分基本略過了，比較簡單。從data/lang說起。 data/lang是由prepare_lang.sh 生成的。首先生成的是 words.txt 和 phones.t

2020-07-05 22:38:00

py 直接提取f0

import pyworld as pw import soundfile as sf WAV_FILE = "aa.wav" x, fs = sf.read(WAV_FILE) f0, sp, ap = pw.wav2world(x,

2020-07-04 05:40:53

kaldi utils/filter_scp.pl腳本解釋

kaldi utils/filter_scp.pl腳本解釋1 用法2 中文解釋3 作用4 注意 1 用法 # This script takes a list of utterance-ids or any file whose

2020-07-04 02:19:45

第一次參加 CHiME-6 challenge 總結

第一次參加chime的自然場景多人對話遠場語音識別評測主要負責數據增強和音頻信號處理衝着高分去的，但由於最終的transcriptions包含了特殊symbol, 本來達到了既定目標，但修改之後最終結果並沒有達到預期，有幾點記錄

2020-07-03 02:19:21

語音識別之kaldi

最近一直在折騰kaldi，在這個龐大的系統面前，自己是那麼的微小。由於數據庫的原因，我只能運行kaldi所給例子的一部分。下面就來說說最近的進展吧。第一個例子就是yesno這個例子。由於提供數據，而且數據比較小，可以非常容易的

2020-07-01 00:29:38

windows 下kaldi配置

一個月前windows剛好宣傳了WSL2對GPU的支持，雖然WSL一直因爲對IO支持不佳被詬病，但是從簡潔性來看還是很值得想學linux但又不想配置虛擬機的同學們的。剛好自己想在本地配置個kaldi，這裏就介紹一下這一系列配置

2020-06-30 01:10:39

kaldi學習之彙總

一、特有名詞 acoustic scale:　通常設置爲0.1，意味着聲學模型的log概率得到的權重遠低於語言模型。在Score的腳本中，經常會看到一系列要搜索的語言模型權重（例如7到15的範圍）。這些可以解釋爲聲acoustic sc

2020-06-25 11:55:28

kaldi語音識別

Kaldi語音識別之--Timit語音數據訓練1.timit實例1.1 timit數據集下載1.2修改run.sh1.3 修改運行環境cmd.sh1.4 運行run.sh(出現錯誤)1.5 再次執行./run.sh2.訓練結束後生

王延凯的博客

2020-06-22 19:13:33

kaldi feature extraction

支持提取mfcc/plp特徵，和HTK特徵的主要差別在於默認參數值的設定。使用選項-htk-compat=true以及合適的參數，可以得到htk特徵。全局CMVN compute-cmvn-stats 假設幀數爲i，特徵維度爲j

2020-06-22 00:36:57

kaldi NFS/GlusterFS

NFS 詳細介紹參考《鳥哥的LINUX私房菜-服務器架設篇》第十三章主要流程 server端配置安裝兩個軟件：rpcbind和nfs-utils 配置/etc/exports <DIR> *(rw,no_root_squ

2020-06-21 23:36:50

kaldi 1d-CNN源碼

CNN nnet/nnet-convolutional-component.h 假設CNN相關參數如下 ###輸入相關參數 num_splice=3

2020-06-21 23:01:12

kaldi 1d-CNN網絡結構

生成nnet.proto utils/nnet/make_cnn_proto.py 假設輸入26維的fbank，feat_raw_dim=26，splice_num=8，delta_order=0： num_filters1

2020-06-21 23:01:12

kaldi 神經網絡

overview type author CPU/GPU feature nnet1 Karel GPU單卡訓練使用pre-training，使用early stopping nnet2 Dan 支持多GPU訓

2020-06-21 23:00:56

24小時熱門文章

通過HPA+CronHPA組合應對業務複雜彈性伸縮場景

最新文章

最新評論文章