SE論文筆記(一)——ICASSP 2019的兩篇論文

AN ATTENTION-BASED NEURAL NETWORK APPROACH FOR SINGLE CHANNEL SPEECH ENHANCEMENT

本論文將Global Attention機制應用到語音增強問題中。

模型結構

這篇論文的整體結構如下:

在這裏插入圖片描述

這裏的Attention就是使用的最基本的Global Attention,其中Encoder分爲兩種,Stacked和Expanded,實驗證明Stacked結構效果更優。具體結構見下圖,區別在於計算htQh_t^Q時是使用原始數據(經過tanh放縮)還是使用hKh^K作爲LSTM的輸入。後者之所以在大部分實驗中效果更佳可能是使得hK,hQh_K,h_Q具有更大的相關性,而計算Attention時使用了相似度作爲衡量標準。

在這裏插入圖片描述

關於Generator,從圖中看出使用了Global Attention後的特徵和xt,hQx_t,h^Q作爲輸入,從論文中看是先將ct,hQc^t,h^Q拼接後經過tanhsigmoidmask全連接\rightarrow tanh\rightarrow 全連接\rightarrow sigmoid\Rightarrow mask後和xtx_t做點積,使用的是語音增強的常用思路生成hidden-mask屏蔽噪聲。

實驗結果

這篇論文的作者自己使用Musan數據集中的噪聲和自己的24.5h數據集合成了新的帶噪聲數據集,使用沒經過Attention的LSTM作爲baseline。

整體感覺很平淡,沒什麼創新。實際上我還查到了有一篇使用Transformer的文章投給了ICASSP2020,不知道能不能中。難道這個領域真的剛剛引入Attention?不過顯然self-Attention的結構更復雜,參數也多得多,如果效果不好才說不過去。

DENSELY CONNECTED NETWORK WITH TIME-FREQUENCY DILATED CONVOLUTION FOR SPEECH ENHANCEMENT

本論文將DenseNet網絡結構應用到了語音增強問題中。

模型結構

DenseNet即將在一個block中,每個Layer的輸出都發送給後續Layer作爲輸入,這樣可以有效保證原始特徵不會隨着網絡層數加深逐漸消失。DenseNet一般由多個block構成,且每層網絡主體都是卷積神經網絡。本論文使用的網絡結構如下圖:

在這裏插入圖片描述

作者使用了兩個Dense Block,Block中沒有用DenseNet中的卷積+BN+ReLU的結構,而是創造了T-F dilated convolutional block結構直譯就是(在)時間和頻率(上)擴張(的)卷積塊。作者認爲直接使用卷積會由於CNN“limited respective fields”的原因無法獲取語音的長期時間依賴,如果想要提升效果需要疊加許多層網絡,效率太低,而且會導致梯度消失。

論文中每個Dense Block中有六個"T-F dilated convolution block",結構如下圖:

在這裏插入圖片描述

網絡的輸入爲T幀時間鄰域的頻譜,每個T-F block的輸入經過ExtensionBlock(一層特殊T-F block)升到256channel。和名稱一致,首先在頻率維度上卷積,第一層降維,第二層提取頻域特徵,之後經過轉置後在時域進行卷積,最後一層1*1升維使得Block間傳遞數據格式一致。

經過兩個DenseBlock後,數據還需要經過一層TransitionBlock(時域卷積降維),最後一層頻域卷積降維+全連接層輸出一幀數據。

實驗結果

本論文使用TIMIT數據集驗證效果,從PESQ和STOI分數來看和C-RNN在噪聲匹配條件下效果相當,而在噪聲不匹配時表現更優越,具有更好的泛化能力。

發佈了35 篇原創文章 · 獲贊 9 · 訪問量 2萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章