SE論文筆記（一）——ICASSP 2019的兩篇論文

原創

lengjiayi

2020-02-21 19:44

AN ATTENTION-BASED NEURAL NETWORK APPROACH FOR SINGLE CHANNEL SPEECH ENHANCEMENT

本論文將Global Attention機制應用到語音增強問題中。

模型結構

這篇論文的整體結構如下：

這裏的Attention就是使用的最基本的Global Attention，其中Encoder分爲兩種，Stacked和Expanded，實驗證明Stacked結構效果更優。具體結構見下圖，區別在於計算 $h_t^Q$ 時是使用原始數據（經過tanh放縮）還是使用 $h^K$ 作爲LSTM的輸入。後者之所以在大部分實驗中效果更佳可能是使得 $h_K,h_Q$ 具有更大的相關性，而計算Attention時使用了相似度作爲衡量標準。

關於Generator，從圖中看出使用了Global Attention後的特徵和 $x_t,h^Q$ 作爲輸入，從論文中看是先將 $c^t,h^Q$ 拼接後經過 $全連接\rightarrow tanh\rightarrow 全連接\rightarrow sigmoid\Rightarrow mask$ 後和 $x_t$ 做點積，使用的是語音增強的常用思路生成hidden-mask屏蔽噪聲。

實驗結果

這篇論文的作者自己使用Musan數據集中的噪聲和自己的24.5h數據集合成了新的帶噪聲數據集，使用沒經過Attention的LSTM作爲baseline。

整體感覺很平淡，沒什麼創新。實際上我還查到了有一篇使用Transformer的文章投給了ICASSP2020，不知道能不能中。難道這個領域真的剛剛引入Attention？不過顯然self-Attention的結構更復雜，參數也多得多，如果效果不好才說不過去。

DENSELY CONNECTED NETWORK WITH TIME-FREQUENCY DILATED CONVOLUTION FOR SPEECH ENHANCEMENT

本論文將DenseNet網絡結構應用到了語音增強問題中。

模型結構

DenseNet即將在一個block中，每個Layer的輸出都發送給後續Layer作爲輸入，這樣可以有效保證原始特徵不會隨着網絡層數加深逐漸消失。DenseNet一般由多個block構成，且每層網絡主體都是卷積神經網絡。本論文使用的網絡結構如下圖：

作者使用了兩個Dense Block，Block中沒有用DenseNet中的卷積+BN+ReLU的結構，而是創造了T-F dilated convolutional block結構直譯就是(在)時間和頻率(上)擴張(的)卷積塊。作者認爲直接使用卷積會由於CNN“limited respective fields”的原因無法獲取語音的長期時間依賴，如果想要提升效果需要疊加許多層網絡，效率太低，而且會導致梯度消失。

論文中每個Dense Block中有六個"T-F dilated convolution block"，結構如下圖：

網絡的輸入爲T幀時間鄰域的頻譜，每個T-F block的輸入經過ExtensionBlock(一層特殊T-F block)升到256channel。和名稱一致，首先在頻率維度上卷積，第一層降維，第二層提取頻域特徵，之後經過轉置後在時域進行卷積，最後一層1*1升維使得Block間傳遞數據格式一致。

經過兩個DenseBlock後，數據還需要經過一層TransitionBlock(時域卷積降維)，最後一層頻域卷積降維+全連接層輸出一幀數據。

實驗結果

本論文使用TIMIT數據集驗證效果，從PESQ和STOI分數來看和C-RNN在噪聲匹配條件下效果相當，而在噪聲不匹配時表現更優越，具有更好的泛化能力。

lengjiayi

發佈了35 篇原創文章 · 獲贊 9 · 訪問量 2萬+

私信關注

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

SE論文筆記（一）——ICASSP 2019的兩篇論文

AN ATTENTION-BASED NEURAL NETWORK APPROACH FOR SINGLE CHANNEL SPEECH ENHANCEMENT

模型結構

實驗結果

DENSELY CONNECTED NETWORK WITH TIME-FREQUENCY DILATED CONVOLUTION FOR SPEECH ENHANCEMENT

模型結構

實驗結果

通過HPA+CronHPA組合應對業務複雜彈性伸縮場景

NLP筆記（一）——CNN在文本處理中的應用

win10 搜索失效解決

非監督學習（二）VAE（生成二次元人臉）

非監督學習（一）DAE（寶可夢編碼）

SE論文筆記（一）——ICASSP 2019的兩篇論文

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結