生成對抗網絡GAN(二) 語音相關


多任務對抗學習[1]

這裏寫圖片描述
爲了獲得對噪音的魯棒性,引入多任務學習,分爲三個網絡:
- 輸入網絡(綠色),用作特徵提取器
- senone輸出網絡(紅色),用作senone分類
- domain輸出網絡(藍色),domain這裏指噪音的類型,總共17種噪聲

爲了增加對噪音的魯棒性,增加了GRL層(gradient reversal layer),網絡在反向傳播的時候,對於domain網絡過來的梯度取了α ,也就是增加噪音分類的錯誤率,以便獲得senone-discriminative domain-invariant的特徵。
[2]和[1]的思想類似。

SEGAN[3]

主要用來做語音增強(比如降噪)等。
結合conditional GAN和LSGAN,使用L1 norm,最後的loss如下:

minDVLSGAN(D)=12Expdata(x,xc)[(D(x,xc)1)2]+12Excpdata(xc),zpz(z)[D(G(z,xc))2]

minGVLSGAN(G)=12Expdata(xc),zpz(z)[(D(G(z,xc))1)2]+λG(z,x~)x1

一些參數的含義如下:
x : noise speech
xc : clean speech
z : 服從正態分佈的noise samples

訓練流程如下:
這裏寫圖片描述
訓練的時候需要clean speech和noisy speech的pair,以保證在去除噪聲的同時保留原始語音的信息。

參考文獻

[1].Adversarial Multi-task Learning of Deep Neural Networks for Robust Speech Recognition
[2].Invariant Representations for Noisy Speech Recognition
[3].SEGAN: Speech Enhancement Generative Adversarial Network

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章