AN ATTENTION-BASED NEURAL NETWORK APPROACH FOR SINGLE CHANNEL SPEECH ENHANCEMENT
本論文將Global Attention機制應用到語音增強問題中。
模型結構
這篇論文的整體結構如下:
這裏的Attention就是使用的最基本的Global Attention,其中Encoder分爲兩種,Stacked和Expanded,實驗證明Stacked結構效果更優。具體結構見下圖,區別在於計算時是使用原始數據(經過tanh放縮)還是使用作爲LSTM的輸入。後者之所以在大部分實驗中效果更佳可能是使得具有更大的相關性,而計算Attention時使用了相似度作爲衡量標準。
關於Generator,從圖中看出使用了Global Attention後的特徵和作爲輸入,從論文中看是先將拼接後經過後和做點積,使用的是語音增強的常用思路生成hidden-mask屏蔽噪聲。
實驗結果
這篇論文的作者自己使用Musan數據集中的噪聲和自己的24.5h數據集合成了新的帶噪聲數據集,使用沒經過Attention的LSTM作爲baseline。
整體感覺很平淡,沒什麼創新。實際上我還查到了有一篇使用Transformer的文章投給了ICASSP2020,不知道能不能中。難道這個領域真的剛剛引入Attention?不過顯然self-Attention的結構更復雜,參數也多得多,如果效果不好才說不過去。
DENSELY CONNECTED NETWORK WITH TIME-FREQUENCY DILATED CONVOLUTION FOR SPEECH ENHANCEMENT
本論文將DenseNet網絡結構應用到了語音增強問題中。
模型結構
DenseNet即將在一個block中,每個Layer的輸出都發送給後續Layer作爲輸入,這樣可以有效保證原始特徵不會隨着網絡層數加深逐漸消失。DenseNet一般由多個block構成,且每層網絡主體都是卷積神經網絡。本論文使用的網絡結構如下圖:
作者使用了兩個Dense Block,Block中沒有用DenseNet中的卷積+BN+ReLU的結構,而是創造了T-F dilated convolutional block結構直譯就是(在)時間和頻率(上)擴張(的)卷積塊。作者認爲直接使用卷積會由於CNN“limited respective fields”的原因無法獲取語音的長期時間依賴,如果想要提升效果需要疊加許多層網絡,效率太低,而且會導致梯度消失。
論文中每個Dense Block中有六個"T-F dilated convolution block",結構如下圖:
網絡的輸入爲T幀時間鄰域的頻譜,每個T-F block的輸入經過ExtensionBlock(一層特殊T-F block)升到256channel。和名稱一致,首先在頻率維度上卷積,第一層降維,第二層提取頻域特徵,之後經過轉置後在時域進行卷積,最後一層1*1升維使得Block間傳遞數據格式一致。
經過兩個DenseBlock後,數據還需要經過一層TransitionBlock(時域卷積降維),最後一層頻域卷積降維+全連接層輸出一幀數據。
實驗結果
本論文使用TIMIT數據集驗證效果,從PESQ和STOI分數來看和C-RNN在噪聲匹配條件下效果相當,而在噪聲不匹配時表現更優越,具有更好的泛化能力。