基於kaldi的CVTE模型研究

本文目的在於研究cvte模型及其工作原理,
CVTE Mandarin Model:普通話模型
kaldi版本:5.1
model type:Chain,TDNN(Time delay neural network)
WER:8.25% on thch30 test set
工作環境:Ubuntu 16.04

CVTE模型結構
數據準備需要uut2spk、text、wav.scp,這幾個文件是需要手動創建的文件
L.fst是FST形式的發音字典

數據準備:爲了方便將我們自己的數據應用在kaldi上,我們應該如何設置自己數據的格式,主要涉及到一些word.txt,音素,語言模型等方面
特徵提取:MFCC和PLP(感知線性預測係數)的計算和基本配置
概率密度函數(PDF,高斯混合模型)


CVTE模型:
版權所有2017- CVTE(http://www.cvte.com)
77; 20003; 0作者:雷豔強
電子郵件:[email protected]
QQ:415198468
該存檔由CVTE提供,包含以下功能:
1)聲學模型(chain,tdnn)用幾個小時和數小時數據訓練;
2)支持在線cmvn,因爲在培訓期間使用“apply-cmvn-online”;
3)3-gram LM model訓練1000 GB文本;
4)它由2017年5月2日由卡爾迪的主分公司創建。
這個檔案中的文件:
1)你應該在kaldi的egs /目錄下解壓縮這個;
2)創建軟鏈接,即s5 / steps,s5 / utils和s5 / local / score.sh;
3)“conf”包含用於特徵提取的fbank.conf;
4)“數據”包含十個測試話語;
5)“exp / chain / tdnn”包含模型;
一些結果:
CVTE201701(1000 utts):ppl 340; CER:4.55%
CVTE201703(10000 utts):pp1313; CER:4.5%
CVTE201705(5000 utts):ppl 200; CER:15.7%
CVTE201705_02(7000 utts):ppl 1000+; CER:5.58%
THCHS30(2496 utts):ppl 2000+; CER:8.25%
注意:CVTE201705是一款非常具有挑戰性的測試裝置,具有各種噪音和強烈的重音,其他CVTE套裝全部由手機或高性能話筒通過標準普通話在辦公室或安靜房間錄製。
如何使用:
使用這些模型非常容易,您可以參考s5 /目錄中的“run.sh”


評估語言模型(Language Model,LM)的好壞,困惑度

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章