Kaldi-Timit 訓練
背景
Timit數據介紹
製作方
- Timit是幾個研究機構聯合收集的,文本材料由Massachusetts Institude of Technology(MIT)、Stanford Research Institude(SRI)和Texas Instruments(TI)共同完成;語音錄製在TI完成,轉錄(包括維護和校驗)在MIT完成。
Corpus Speaker Distribution
Timit一共包含6300個句子,由來自美國8個主要州的630個人,每個人說10句話得到,詳細情況如下表:
州號(dr) 男性人數(#Male) 女性人數(#Female) 總人數(Total) dr1 (New England) 31(63%) 18(37%) 49(8%) dr2 (Northern) 71(70%) 31(30%) 102(16%) dr3 (North Midland) 79(67%) 23(23%) 102(16%) dr4 (South Midland) 69(69%) 31(31%) 100(16%) dr5 (Southern) 62(63%) 36(37%) 98(16%) dr6 (New Yourk City) 30(65%) 16(35%) 46(7%) dr7 (Western) 74(74%) 26(26%) 100(16%) dr8 (Army Brat) 22(67%) 11(33%) 33(5%) total 438(70%) 192(30%) 630(100%)
Corpus Text Material
詳細情況如下表:
句子類型(Sentence Type) 句子數量(#Sentences) 說話人數(#Speakers) 總人數(Total) 句/人(#Sentences/Speaker) 方言(SA) 2 630 1260 2 音素緊湊型(SX) 450 7 3150 5 音素分散型(SI) 1890 1 1890 3 總數(Total) 2342 - 6300 10 SA類型主要針對同一音素在不同方言中的發音;SX類型的目的在於儘可能的覆蓋多的音素對;SI類型是從Brown Corpus中選取的,目的在於增加句子的多樣性。
Training/Test Subdivision
核心測試集包含24個speaker,每個州2個男性1個女性,每個人3句SI型句子和5句SX型句子;完整測試集包含168個人,沒人8句SX型句子。詳細情況如下表:
測試集類型 人數 句子/人 句子數 核心測試集 24 8(3SI + 5SX) 192 完整測試集 168 8(SX) 1344
文件類型
.wav : SPHERS 格式語音文件
.txt : 音頻轉錄文本
.wrd : 帶有時間標記的轉錄文件
.phn : 帶有時間標記的音素轉錄文件
如下圖所示:
過程
- Timit數據準備
- 步驟如下:
1. 進入kaldi/egs/timit/s5, 創建data目錄, 用於存放timit數據;
2. 將timit數據複製到data目錄下,複製完後的目錄爲data/timit/ ;
3. 修改s5目錄下run.sh裏timit的路徑,在s5目錄下執行run.sh即可,整個過程要幾個小時;
問題及解決方法
問題一:
從錯誤信息可以知道qsub沒有安裝(或者不在搜索路徑中),安裝qsub,重新執行問題二:
這種情況多半是電腦沒有使用GridEngine,這是需要修改s5目錄下的cmd.sh中的變量,如下圖: