kaldi data preparation

主要兩個文件夾data/train和data/lang

train

需要手動創建三個文件
- utt2spk
- text
- wav.scp

以上文件需要提前按照C++方式排序

export LC_ALL=C

然後可以調用steps下的腳本抽特徵

steps/make_mfcc.sh --nj 20 --cmd "$train_cmd" data/train exp/make_mfcc/train $mfccdir
steps/compute_cmvn_stats.sh data/train exp/make_mfcc/train $mfccdir

得到兩個文件:
- train/feats.scp
- train/cmvn.scp

lang

需要提前準備的文件data/local/dict:
- extra_questions.txt
- lexicon.txt
- nonsilence_phones.txt
- optional_silence.txt
- silence_phones.txt

運行一下腳本生成data/lang

utils/prepare_lang.sh data/local/dict "<UNK>" data/local/lang data/lang
發佈了132 篇原創文章 · 獲贊 94 · 訪問量 62萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章