多任務對抗學習[1]
爲了獲得對噪音的魯棒性,引入多任務學習,分爲三個網絡:
- 輸入網絡(綠色),用作特徵提取器
- senone輸出網絡(紅色),用作senone分類
- domain輸出網絡(藍色),domain這裏指噪音的類型,總共17種噪聲
爲了增加對噪音的魯棒性,增加了GRL層(gradient reversal layer),網絡在反向傳播的時候,對於domain網絡過來的梯度取了
[2]和[1]的思想類似。
SEGAN[3]
主要用來做語音增強(比如降噪)等。
結合conditional GAN和LSGAN,使用
一些參數的含義如下:
訓練流程如下:
訓練的時候需要clean speech和noisy speech的pair,以保證在去除噪聲的同時保留原始語音的信息。
參考文獻
[1].Adversarial Multi-task Learning of Deep Neural Networks for Robust Speech Recognition
[2].Invariant Representations for Noisy Speech Recognition
[3].SEGAN: Speech Enhancement Generative Adversarial Network