kaldi 说话人自适应

原創

落红灬有丶情

2018-08-27 07:21

自适应的作用是，补偿实际数据与已经训练的三音素模型中声学条件不匹配的问题，包括说话人特性（说话方式、口音等）及环境特性（如录音设备、房间混响等）。在GMM-HMM模型中，自适应方法有特征空间变换和模型空间变换。Kaldi中主要采用的是特征空间变换方法： LDA、MLLT和fMLLR，其本质都是在训练过程中估计变换矩阵，然后构造变换后的特征，再迭代训练新的声学模型参数。LDA+MLLT针对环境特性，拼接上下文多帧数据，再通过特征变换进行降维处理，因为与说话人无关，所以估计的是全局矩阵。fMLLR针对说话人特性，基于每个说话人或每个utterance进行变换矩阵估计。在DNN-HMM模型中，由于DNN的鉴别特性，GMM下的自适应方法不能直接拿来用，DNN下的自适应方法主要有线性变换、正则项法、子空间法（i-vector）。

自适应的作用是，补偿实际数据与已经训练的三音素模型中声学条件不匹配的问题，包括说话人特性（说话方式、口音等）及环境特性（如录音设备、房间混响等）。在GMM-HMM模型中，自适应方法有特征空间变换和模型空间变换。Kaldi中主要采用的是特征空间变换方法： LDA、MLLT和fMLLR，其本质都是在训练过程中估计变换矩阵，然后构造变换后的特征，再迭代训练新的声学模型参数。LDA+MLLT针对环境特性，拼接上下文多帧数据，再通过特征变换进行降维处理，因为与说话人无关，所以估计的是全局矩阵。fMLLR针对说话人特性，基于每个说话人或每个utterance进行变换矩阵估计。在DNN-HMM模型中，由于DNN的鉴别特性，GMM下的自适应方法不能直接拿来用，DNN下的自适应方法主要有线性变换、正则项法、子空间法（i-vector）。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Decoding-graph creation recipe (training time) （kaldi翻译+个人理解）

kaldi的圖創建過程在訓練階段與測試階段相比而言要相對簡單一點，主要是因爲不需要消歧符號，我們假定你已經讀了這個recipe的test階段，然而我沒讀，，，。在訓練過程中我們採用和test階段相同的HCLG形式，除了G是由一個符合訓練

2020-06-20 14:13:31

Kaldi-Timit 训练

Kaldi-Timit 訓練背景這篇博客主要記錄使用Kaldi和Timit數據集訓練模型的過程以及遇到的問題及解決方法。 Timit數據介紹製作方 Timit是幾個研究機構聯合收集的，文本材料由Massachusett

2020-07-07 08:45:10

kaldi tutorial 中文翻译

數據準備這部分基本略過了，比較簡單。從data/lang說起。 data/lang是由prepare_lang.sh 生成的。首先生成的是 words.txt 和 phones.t

2020-07-05 22:38:00

py 直接提取f0

import pyworld as pw import soundfile as sf WAV_FILE = "aa.wav" x, fs = sf.read(WAV_FILE) f0, sp, ap = pw.wav2world(x,

2020-07-04 05:40:53

kaldi utils/filter_scp.pl脚本解释

kaldi utils/filter_scp.pl腳本解釋1 用法2 中文解釋3 作用4 注意 1 用法 # This script takes a list of utterance-ids or any file whose

2020-07-04 02:19:45

第一次参加 CHiME-6 challenge 总结

第一次參加chime的自然場景多人對話遠場語音識別評測主要負責數據增強和音頻信號處理衝着高分去的，但由於最終的transcriptions包含了特殊symbol, 本來達到了既定目標，但修改之後最終結果並沒有達到預期，有幾點記錄

2020-07-03 02:19:21

语音识别之kaldi

最近一直在折騰kaldi，在這個龐大的系統面前，自己是那麼的微小。由於數據庫的原因，我只能運行kaldi所給例子的一部分。下面就來說說最近的進展吧。第一個例子就是yesno這個例子。由於提供數據，而且數據比較小，可以非常容易的

2020-07-01 00:29:38

windows 下kaldi配置

一個月前windows剛好宣傳了WSL2對GPU的支持，雖然WSL一直因爲對IO支持不佳被詬病，但是從簡潔性來看還是很值得想學linux但又不想配置虛擬機的同學們的。剛好自己想在本地配置個kaldi，這裏就介紹一下這一系列配置

2020-06-30 01:10:39

kaldi学习之汇总

一、特有名詞 acoustic scale:　通常設置爲0.1，意味着聲學模型的log概率得到的權重遠低於語言模型。在Score的腳本中，經常會看到一系列要搜索的語言模型權重（例如7到15的範圍）。這些可以解釋爲聲acoustic sc

2020-06-25 11:55:28

kaldi语音识别

Kaldi語音識別之--Timit語音數據訓練1.timit實例1.1 timit數據集下載1.2修改run.sh1.3 修改運行環境cmd.sh1.4 運行run.sh(出現錯誤)1.5 再次執行./run.sh2.訓練結束後生

王延凯的博客

2020-06-22 19:13:33

kaldi feature extraction

支持提取mfcc/plp特徵，和HTK特徵的主要差別在於默認參數值的設定。使用選項-htk-compat=true以及合適的參數，可以得到htk特徵。全局CMVN compute-cmvn-stats 假設幀數爲i，特徵維度爲j

2020-06-22 00:36:57

kaldi NFS/GlusterFS

NFS 詳細介紹參考《鳥哥的LINUX私房菜-服務器架設篇》第十三章主要流程 server端配置安裝兩個軟件：rpcbind和nfs-utils 配置/etc/exports <DIR> *(rw,no_root_squ

2020-06-21 23:36:50

kaldi 1d-CNN源码

CNN nnet/nnet-convolutional-component.h 假設CNN相關參數如下 ###輸入相關參數 num_splice=3

2020-06-21 23:01:12

kaldi 1d-CNN网络结构

生成nnet.proto utils/nnet/make_cnn_proto.py 假設輸入26維的fbank，feat_raw_dim=26，splice_num=8，delta_order=0： num_filters1

2020-06-21 23:01:12

kaldi 神经网络

overview type author CPU/GPU feature nnet1 Karel GPU單卡訓練使用pre-training，使用early stopping nnet2 Dan 支持多GPU訓

2020-06-21 23:00:56

24小時熱門文章

最新文章

最新評論文章