Time-Delay Neural Network(TDNN)-上

前言

  • 本篇博客僅對TDNN的網絡結構進行簡單梳理,使讀者對TDNN的網絡結構有一個清晰直觀的印象。博客基於對論文 Phoneme Recognition Using Time-Delay Neural Network 的閱讀和理解,如有謬誤,還望指出,不勝感激。

正文

  • TDNN與1989年就已提出(在我出生之前), 用於音素識別。以下部分將以論文中的結構做簡單說明,網絡結構如下圖:
    這裏寫圖片描述

  • 這是一個只有4層(包含輸入層)的TDNN,每一層的Time-Delay用N表示,單元數用J表示,將逐層介紹。

    • 輸入層:N=1(因爲輸入層特徵是單幀提取的), J=16(Mel濾波的維度爲16),共15個frame;
    • 第一隱層: N=2, J=8, 共13(15-2) frame, 參數量 8 x (2+1) * 16 = 384;
    • 第二隱層: N=4, J=3, 共9(13-4) frame, 參數量 3 x (4+1) * 8 = 120;
    • 輸出層:N=8, J=3, 共1(9-8) frame, 參數量 3 x (8+1) * 3 = 81;
      總的參數量爲384 + 120 + 81 = 585,相比現在網絡動輒上百萬的參數量,簡直輕量到不能再輕量了。論文中提到,最後一層再時間維度上共享參數,如此輸出層的參數量爲 3 x 3 = 9,總的參數量更少。

參考

  1. Phoneme Recognition Using Time-Delay Neural Network
  2. Time-Delay Neural Network
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章