前言
- 本篇博客對TDNN網絡結構的特性進行梳理,使讀者瞭解設計所考慮的問題,關於其結構請參考博客Time-Delay Neural Network(TDNN)-上。博客基於對論文 Phoneme Recognition Using Time-Delay Neural Network 的閱讀和理解,如有謬誤,還望指出,不勝感激。
正文
語音識別的小夥伴都知道,語音識別通常要把一段不等場的語音切分成等長的小段,通常是每小段長度爲25ms,然後以小段爲單位進行處理,即只考慮當前幀。Time-Delay顧名思義即在時間上會有延遲,具體一點是指在識別的時候當前幀不僅考慮自身,還要參考一定數量的前後幀。
TDNN具有以下特性:
- 多層的feedforward NN及節點之間緊密的連接使得其可以表示複雜的非線性分類面;
- Time-Delay使得其可以學習到特徵之間的時序依賴;
- 學習到的特徵具有時移不變性,同一個音素出現在語音的不同位置學到的特徵應該儘可能相近;
- 學習過程中特徵和標籤不需要精確地對齊;
- 參數數量應該遠小於訓練樣本的數量;