Kaldi-Timit 訓練

原創

2020-07-07 08:45

Kaldi-Timit 訓練

背景

這篇博客主要記錄使用Kaldi和Timit數據集訓練模型的過程以及遇到的問題及解決方法。

Timit數據介紹

製作方
- Timit是幾個研究機構聯合收集的，文本材料由Massachusetts Institude of Technology(MIT)、Stanford Research Institude(SRI)和Texas Instruments(TI)共同完成；語音錄製在TI完成，轉錄(包括維護和校驗)在MIT完成。

Corpus Speaker Distribution

Timit一共包含6300個句子，由來自美國8個主要州的630個人，每個人說10句話得到，詳細情況如下表：

州號(dr)	男性人數(#Male)	女性人數(#Female)	總人數(Total)
dr1 (New England)	31(63%)	18(37%)	49(8%)
dr2 (Northern)	71(70%)	31(30%)	102(16%)
dr3 (North Midland)	79(67%)	23(23%)	102(16%)
dr4 (South Midland)	69(69%)	31(31%)	100(16%)
dr5 (Southern)	62(63%)	36(37%)	98(16%)
dr6 (New Yourk City)	30(65%)	16(35%)	46(7%)
dr7 (Western)	74(74%)	26(26%)	100(16%)
dr8 (Army Brat)	22(67%)	11(33%)	33(5%)
total	438(70%)	192(30%)	630(100%)

Corpus Text Material

詳細情況如下表：

句子類型(Sentence Type)	句子數量(#Sentences)	說話人數(#Speakers)	總人數(Total)	句/人(#Sentences/Speaker)
方言(SA)	2	630	1260	2
音素緊湊型(SX)	450	7	3150	5
音素分散型(SI)	1890	1	1890	3
總數(Total)	2342	-	6300	10

SA類型主要針對同一音素在不同方言中的發音；SX類型的目的在於儘可能的覆蓋多的音素對；SI類型是從Brown Corpus中選取的，目的在於增加句子的多樣性。

Training/Test Subdivision
- 核心測試集包含24個speaker，每個州2個男性1個女性，每個人3句SI型句子和5句SX型句子；完整測試集包含168個人，沒人8句SX型句子。詳細情況如下表：
  
  測試集類型人數句子/人句子數
  
  核心測試集 24 8(3SI + 5SX) 192
  
  完整測試集 168 8(SX) 1344
文件類型
.wav : SPHERS 格式語音文件
.txt : 音頻轉錄文本
.wrd : 帶有時間標記的轉錄文件
.phn : 帶有時間標記的音素轉錄文件
如下圖所示：

過程

Timit數據準備
- 注意: Timit數據集不可以免費獲取，通過交錢或者加入LDC會員纔可以獲取數據集。以下假設已經獲得Timit數據集。
步驟如下：
1. 進入kaldi/egs/timit/s5, 創建data目錄, 用於存放timit數據；
2. 將timit數據複製到data目錄下，複製完後的目錄爲data/timit/ ;
3. 修改s5目錄下run.sh裏timit的路徑，在s5目錄下執行run.sh即可，整個過程要幾個小時；

問題及解決方法

問題一：

從錯誤信息可以知道qsub沒有安裝(或者不在搜索路徑中)，安裝qsub，重新執行
問題二：

這種情況多半是電腦沒有使用GridEngine，這是需要修改s5目錄下的cmd.sh中的變量，如下圖：

參考

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

第一次參加 CHiME-6 challenge 總結

第一次參加chime的自然場景多人對話遠場語音識別評測主要負責數據增強和音頻信號處理衝着高分去的，但由於最終的transcriptions包含了特殊symbol, 本來達到了既定目標，但修改之後最終結果並沒有達到預期，有幾點記錄

2020-07-03 02:19:21

語音識別之kaldi

最近一直在折騰kaldi，在這個龐大的系統面前，自己是那麼的微小。由於數據庫的原因，我只能運行kaldi所給例子的一部分。下面就來說說最近的進展吧。第一個例子就是yesno這個例子。由於提供數據，而且數據比較小，可以非常容易的

2020-07-01 00:29:38

Ubuntu16.04搭建Kaldi

西瓜爱好者

2020-06-02 22:34:08

Kaldi特徵提取之-FBank

2020-02-23 06:31:48

Kaldi特徵提取之-預處理

2020-02-23 06:31:48

Kaldi特徵提取之-MFCC

2020-02-23 06:31:48

Kaldi特徵提取之-VAD

2020-02-23 06:31:48

Kaldi在虛擬機裏面安裝

2020-02-23 00:43:16

kaldi 語音識別 ubuntu 16.04安裝教程

成都-上帝的中腿

2020-02-21 23:09:20

Kaldi中如何使用已經訓練好的模型進行語音識別ASR呢？

一代程序码农

2020-02-21 19:13:10

Kaldi中nnet3進行語音識別過程中用到的部分工具集錦！！！

一代程序码农

2020-02-21 19:13:10

跑通kaldi中timit試驗以及awk不能找到gensub函數解決方法

一代程序码农

2020-02-21 19:13:10

Training of GMM

2020-02-20 22:28:12

kaldi tutorial 中文翻譯

數據準備這部分基本略過了，比較簡單。從data/lang說起。 data/lang是由prepare_lang.sh 生成的。首先生成的是 words.txt 和 phones.t

2020-07-05 22:38:00

py 直接提取f0

import pyworld as pw import soundfile as sf WAV_FILE = "aa.wav" x, fs = sf.read(WAV_FILE) f0, sp, ap = pw.wav2world(x,

2020-07-04 05:40:53

24小時熱門文章

最新文章

最新評論文章