主要兩個文件夾data/train和data/lang
train
需要手動創建三個文件
- utt2spk
- text
- wav.scp
以上文件需要提前按照C++方式排序
export LC_ALL=C
然後可以調用steps下的腳本抽特徵
steps/make_mfcc.sh --nj 20 --cmd "$train_cmd" data/train exp/make_mfcc/train $mfccdir
steps/compute_cmvn_stats.sh data/train exp/make_mfcc/train $mfccdir
得到兩個文件:
- train/feats.scp
- train/cmvn.scp
lang
需要提前準備的文件data/local/dict:
- extra_questions.txt
- lexicon.txt
- nonsilence_phones.txt
- optional_silence.txt
- silence_phones.txt
運行一下腳本生成data/lang
utils/prepare_lang.sh data/local/dict "<UNK>" data/local/lang data/lang