Kaldi-Timit 訓練

Kaldi-Timit 訓練

背景

  • 這篇博客主要記錄使用KaldiTimit數據集訓練模型的過程以及遇到的問題及解決方法。

Timit數據介紹

  • 製作方

    • Timit是幾個研究機構聯合收集的,文本材料由Massachusetts Institude of Technology(MIT)、Stanford Research Institude(SRI)和Texas Instruments(TI)共同完成;語音錄製在TI完成,轉錄(包括維護和校驗)在MIT完成。
  • Corpus Speaker Distribution

    • Timit一共包含6300個句子,由來自美國8個主要州的630個人,每個人說10句話得到,詳細情況如下表:

      州號(dr) 男性人數(#Male) 女性人數(#Female) 總人數(Total)
      dr1 (New England) 31(63%) 18(37%) 49(8%)
      dr2 (Northern) 71(70%) 31(30%) 102(16%)
      dr3 (North Midland) 79(67%) 23(23%) 102(16%)
      dr4 (South Midland) 69(69%) 31(31%) 100(16%)
      dr5 (Southern) 62(63%) 36(37%) 98(16%)
      dr6 (New Yourk City) 30(65%) 16(35%) 46(7%)
      dr7 (Western) 74(74%) 26(26%) 100(16%)
      dr8 (Army Brat) 22(67%) 11(33%) 33(5%)
      total 438(70%) 192(30%) 630(100%)
  • Corpus Text Material

    • 詳細情況如下表:

      句子類型(Sentence Type) 句子數量(#Sentences) 說話人數(#Speakers) 總人數(Total) 句/人(#Sentences/Speaker)
      方言(SA) 2 630 1260 2
      音素緊湊型(SX) 450 7 3150 5
      音素分散型(SI) 1890 1 1890 3
      總數(Total) 2342 - 6300 10
    • SA類型主要針對同一音素在不同方言中的發音;SX類型的目的在於儘可能的覆蓋多的音素對;SI類型是從Brown Corpus中選取的,目的在於增加句子的多樣性。

  • Training/Test Subdivision

    • 核心測試集包含24個speaker,每個州2個男性1個女性,每個人3句SI型句子和5句SX型句子;完整測試集包含168個人,沒人8句SX型句子。詳細情況如下表:

      測試集類型 人數 句子/人 句子數
      核心測試集 24 8(3SI + 5SX) 192
      完整測試集 168 8(SX) 1344
  • 文件類型
    .wav : SPHERS 格式語音文件
    .txt : 音頻轉錄文本
    .wrd : 帶有時間標記的轉錄文件
    .phn : 帶有時間標記的音素轉錄文件
    如下圖所示:
    這裏寫圖片描述

過程

  • Timit數據準備
    • 注意: Timit數據集不可以免費獲取,通過交錢或者加入LDC會員纔可以獲取數據集。以下假設已經獲得Timit數據集。
  • 步驟如下:
    1. 進入kaldi/egs/timit/s5, 創建data目錄, 用於存放timit數據;
    2. 將timit數據複製到data目錄下,複製完後的目錄爲data/timit/ ;
    3. 修改s5目錄下run.sh裏timit的路徑,在s5目錄下執行run.sh即可,整個過程要幾個小時;
    這裏寫圖片描述

問題及解決方法

  • 問題一
    這裏寫圖片描述
    從錯誤信息可以知道qsub沒有安裝(或者不在搜索路徑中),安裝qsub,重新執行

  • 問題二
    這裏寫圖片描述

    這種情況多半是電腦沒有使用GridEngine,這是需要修改s5目錄下的cmd.sh中的變量,如下圖:
    這裏寫圖片描述

參考

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章