Kaldi-Timit 训练

原創

2020-07-07 08:45

Kaldi-Timit 训练

背景

这篇博客主要记录使用Kaldi和Timit数据集训练模型的过程以及遇到的问题及解决方法。

Timit数据介绍

制作方
- Timit是几个研究机构联合收集的，文本材料由Massachusetts Institude of Technology(MIT)、Stanford Research Institude(SRI)和Texas Instruments(TI)共同完成；语音录制在TI完成，转录(包括维护和校验)在MIT完成。

Corpus Speaker Distribution

Timit一共包含6300个句子，由来自美国8个主要州的630个人，每个人说10句话得到，详细情况如下表：

州号(dr)	男性人数(#Male)	女性人数(#Female)	总人数(Total)
dr1 (New England)	31(63%)	18(37%)	49(8%)
dr2 (Northern)	71(70%)	31(30%)	102(16%)
dr3 (North Midland)	79(67%)	23(23%)	102(16%)
dr4 (South Midland)	69(69%)	31(31%)	100(16%)
dr5 (Southern)	62(63%)	36(37%)	98(16%)
dr6 (New Yourk City)	30(65%)	16(35%)	46(7%)
dr7 (Western)	74(74%)	26(26%)	100(16%)
dr8 (Army Brat)	22(67%)	11(33%)	33(5%)
total	438(70%)	192(30%)	630(100%)

Corpus Text Material

详细情况如下表：

句子类型(Sentence Type)	句子数量(#Sentences)	说话人数(#Speakers)	总人数(Total)	句/人(#Sentences/Speaker)
方言(SA)	2	630	1260	2
音素紧凑型(SX)	450	7	3150	5
音素分散型(SI)	1890	1	1890	3
总数(Total)	2342	-	6300	10

SA类型主要针对同一音素在不同方言中的发音；SX类型的目的在于尽可能的覆盖多的音素对；SI类型是从Brown Corpus中选取的，目的在于增加句子的多样性。

Training/Test Subdivision
- 核心测试集包含24个speaker，每个州2个男性1个女性，每个人3句SI型句子和5句SX型句子；完整测试集包含168个人，没人8句SX型句子。详细情况如下表：
  
  测试集类型人数句子/人句子数
  
  核心测试集 24 8(3SI + 5SX) 192
  
  完整测试集 168 8(SX) 1344
文件类型
.wav : SPHERS 格式语音文件
.txt : 音频转录文本
.wrd : 带有时间标记的转录文件
.phn : 带有时间标记的音素转录文件
如下图所示：

过程

Timit数据准备
- 注意: Timit数据集不可以免费获取，通过交钱或者加入LDC会员才可以获取数据集。以下假设已经获得Timit数据集。
步骤如下：
1. 进入kaldi/egs/timit/s5, 创建data目录, 用于存放timit数据；
2. 将timit数据复制到data目录下，复制完后的目录为data/timit/ ;
3. 修改s5目录下run.sh里timit的路径，在s5目录下执行run.sh即可，整个过程要几个小时；

问题及解决方法

问题一：

从错误信息可以知道qsub没有安装(或者不在搜索路径中)，安装qsub，重新执行
问题二：

这种情况多半是电脑没有使用GridEngine，这是需要修改s5目录下的cmd.sh中的变量，如下图：

参考

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

第一次参加 CHiME-6 challenge 总结

第一次參加chime的自然場景多人對話遠場語音識別評測主要負責數據增強和音頻信號處理衝着高分去的，但由於最終的transcriptions包含了特殊symbol, 本來達到了既定目標，但修改之後最終結果並沒有達到預期，有幾點記錄

2020-07-03 02:19:21

语音识别之kaldi

最近一直在折騰kaldi，在這個龐大的系統面前，自己是那麼的微小。由於數據庫的原因，我只能運行kaldi所給例子的一部分。下面就來說說最近的進展吧。第一個例子就是yesno這個例子。由於提供數據，而且數據比較小，可以非常容易的

2020-07-01 00:29:38

Ubuntu16.04搭建Kaldi

西瓜爱好者

2020-06-02 22:34:08

Kaldi特征提取之-FBank

2020-02-23 06:31:48

Kaldi特征提取之-预处理

2020-02-23 06:31:48

Kaldi特征提取之-MFCC

2020-02-23 06:31:48

Kaldi特征提取之-VAD

2020-02-23 06:31:48

Kaldi在虚拟机里面安装

2020-02-23 00:43:16

kaldi 语音识别 ubuntu 16.04安装教程

成都-上帝的中腿

2020-02-21 23:09:20

Kaldi中如何使用已经训练好的模型进行语音识别ASR呢？

一代程序码农

2020-02-21 19:13:10

Kaldi中nnet3进行语音识别过程中用到的部分工具集锦！！！

一代程序码农

2020-02-21 19:13:10

跑通kaldi中timit试验以及awk不能找到gensub函数解决方法

一代程序码农

2020-02-21 19:13:10

Training of GMM

2020-02-20 22:28:12

kaldi tutorial 中文翻译

數據準備這部分基本略過了，比較簡單。從data/lang說起。 data/lang是由prepare_lang.sh 生成的。首先生成的是 words.txt 和 phones.t

2020-07-05 22:38:00

py 直接提取f0

import pyworld as pw import soundfile as sf WAV_FILE = "aa.wav" x, fs = sf.read(WAV_FILE) f0, sp, ap = pw.wav2world(x,

2020-07-04 05:40:53

24小時熱門文章

最新文章

最新評論文章