生成對抗網絡GAN（二）語音相關

原創

2018-09-04 12:15

多任務對抗學習[1]

爲了獲得對噪音的魯棒性，引入多任務學習，分爲三個網絡：
- 輸入網絡（綠色），用作特徵提取器
- senone輸出網絡（紅色），用作senone分類
- domain輸出網絡（藍色），domain這裏指噪音的類型，總共17種噪聲

爲了增加對噪音的魯棒性，增加了GRL層（gradient reversal layer），網絡在反向傳播的時候，對於domain網絡過來的梯度取了−α ，也就是增加噪音分類的錯誤率，以便獲得senone-discriminative domain-invariant的特徵。
[2]和[1]的思想類似。

SEGAN[3]

主要用來做語音增強（比如降噪）等。
結合conditional GAN和LSGAN，使用L1 norm，最後的loss如下：

m i n D V L S G A N (D) = 1 2 E x \sim p d a t a (x, x c) [(D (x, x c) - 1) 2] + 1 2 E x c \sim p d a t a (x c), z \sim p z (z) [D (G (z, x c)) 2]

m i n G V L S G A N (G) = 1 2 E x \sim p d a t a (x c), z \sim p z (z) [(D (G (z, x c)) - 1) 2] + λ ∥ G (z, x ~) - x ∥ 1

一些參數的含義如下：

x : noise speech

xc : clean speech

z : 服從正態分佈的noise samples

訓練流程如下：

訓練的時候需要clean speech和noisy speech的pair，以保證在去除噪聲的同時保留原始語音的信息。

參考文獻

[1].Adversarial Multi-task Learning of Deep Neural Networks for Robust Speech Recognition
[2].Invariant Representations for Noisy Speech Recognition
[3].SEGAN: Speech Enhancement Generative Adversarial Network

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

深度學習_目標檢測_“YOLOv5”詳解（持續更新）

YOLOv5可以方便的進行工程化部署： YOLOv5（PyTorch）−>ONNX−>CoreML−>iosYOLOv5（PyTorch） -> ONNX -> CoreML -> iosYOLOv5（PyTorch）−>ONNX

2020-07-08 11:57:07

[深度之眼]LeNet/AlexNet/VGGNet/InceptionNet/ResNet實現fashion_mnist分類

本文使用五種經典卷積神經網絡，實現fashion_mnist十分類問題，並對比準確度和運行時間LeNet5 原理AlexNet8 原理VGGNet16 原理InceptionNet10 原理ResNet18 原理用到的包： im

2020-07-08 11:53:37

視頻目標分割之Video Object Segmentation using Space-Time Memory Networks

Video Object Segmentation using Space-Time Memory Networks 文章目錄Video Object Segmentation using Space-Time Memory Ne

2020-07-08 11:18:09

《神經網絡與深度學習》-循環神經網絡

循環神經網絡1. 給網絡增加記憶能力1.1 延時神經網絡1.2 有外部輸入的非線性自迴歸模型1.3 循環神經網絡2. 簡單循環網絡2.1 循環神經網絡的計算能力2.1.1 循環神經網絡的通用近似定理2.1.2 圖靈完備3. 應用到

你电吴彦祖

2020-07-08 07:48:15

《神經網絡與深度學習》-網絡優化和正則化

網絡優化與正則化1. 網絡優化1.1 網絡優化的難點1.1.1 網絡結構的多樣性1.1.2 高維變量的非凸優化2. 優化算法2.1 小批量梯度下降2.2 批量大小選擇2.3 學習率調整2.3.1 學習率衰減2.3.2 學習率預熱2

你电吴彦祖

2020-07-08 07:48:15

《神經網絡與深度學習》-前饋神經網絡

你电吴彦祖

2020-07-08 07:48:14

深度學習中的Momentum算法原理

一、介紹在深度學習中，Momentum（動量）算法是對梯度下降法的一種優化，它將物理學中物體的運動理論和梯度下降相結合，其特點是直觀易懂，已成爲目前非常流行的深度學習優化算法之一。在介紹動量優化算法前，需要對指數加

2020-07-08 06:58:33

Learning both Weights and Connections for Efficient Neural Networks

Learning both Weights and Connections for Efficient Neural Networks 摘要神經網絡是計算密集型和內存密集型的，這使得它們很難部署在嵌入式系統上。此外，傳統的網絡

2020-07-08 06:53:07

Learning both Weights and Connections for Efficient Neural Networks 論文進一步的實驗與思考

Learning both Weights and Connections for Efficient Neural Networks 論文進一步的實驗與思考上一篇文章我實驗了net-300-100網絡去識別手寫數字體，通過剪枝

2020-07-08 06:53:07

Learning both Weights and Connections for Efficient Neural Networks 論文pytorch復現

Learning both Weights and Connections for Efficient Neural Networks 論文pytorch復現這是論文中主要的步驟，因此我們復現的時候也主要是利用這個思想。代碼

2020-07-08 06:53:07

《deep learning》讀書筆記6——深度前饋網絡

目錄深度前饋網絡實例：學習xor 基於梯度的學習代價函數用最大似然學習條件分佈學習條件統計量輸出單元用於高斯輸出分佈的線性單元用於Bernoulli 輸出分佈的sigmoid 單元用於Multinoulli 輸出分

2020-07-08 05:31:06

泛統計理論初探——模型泛化能力增強技巧

數據挖掘-機器學習模型泛化增強技巧機器學習模型泛化能力增強技巧簡介在之前的文章中，我們已經介紹了三種提高模型泛化能力的方法，即前一篇文章介紹的L1正則化、L2正則化、DropOut方法。在本文中，我們將會從數據角度、模型

喷火龙与水箭龟

2020-07-08 04:17:12

泛統計理論初探——過擬合與欠擬合探討

數據挖掘-過擬合與欠擬合的簡介過擬合與欠擬合簡介在我們數據挖掘的學習中，經常會出現過擬合和欠擬合的情況。比如使用BP神經網絡進行預測的時候，可能會造成數據的過擬合；使用簡單的一元線性迴歸的進行預測的時候，可能會造成數據的欠擬合

喷火龙与水箭龟

2020-07-08 04:17:12

神經網絡（NN）複雜度

前言本文中主要介紹神經網絡（NN）中的複雜度，分別介紹時間複雜度、空間複雜度。過程會有概念介紹、分析、和如何計算等。神經網絡的複雜度，包括時間複雜度和空間複雜度。空間複雜度簡介空間複雜度，包括兩部分：總參數量 +

2020-07-08 01:47:44

微軟三維人臉重建論文前期知識鋪墊——《Accurate 3D Face Reconstruction with Weakly-Supervised Learning》

一個3D模型的數據結構是怎麼樣的？首先是一個points_shape,這個shape的形狀是shape=（35709，3）。其中35709代表這個模型包括35709個點，3代表的是這些點的三維座標。有了這個矩陣，我們能夠在腦海裏想象在空

2020-07-08 01:13:07

24小時熱門文章

Nginx R31 doc 官方文檔-01-nginx 如何安裝

最新文章

最新評論文章