Voice Conversion using Convolutional Neural Networks 翻譯

原文來自arXiv.org (Mobin S, Bruna J. Voice Conversion using Convolutional Neural Networks[J]. 2016.)

摘要:除了音調外,音色是識別說話人的關鍵,但我們對此瞭解不多。在這篇論文我們利用神經網絡來變換說話人聲音。(不僅轉換說話人音調,還包括了音色的轉換)。我們用能夠學習類比的神經網絡結構來構建生成模型。

 

1.介紹

當聲學家描述一個人說話聲音的不同時首先提到的是音調其次是音色。當音調很好地被諧波結構描述時,音色被廣泛描述爲除音調和強度外的一切。音調相同的聲音可能聽起來完全不同(如對於同一音調的聲音,鋼琴和小號產生的聽起來差別很大)。

語音信號可以看作是兩個因素(說什麼 和 誰在說)的耦合(entanglement)。語音信號是一個非穩定的過程,這導致了對這兩個因素的解耦過程非常困難。在這篇論文裏我們將探索保持其中一個因素不變而交互另一個因素是否可能。也就是說,我們會看到保持說的單詞不變時轉換說話人的語音信號是否可能。在參考文獻[4]中, 根據大腦的聲學表達,沿着小號和鋼琴的音色軸來插入聲音是可能的(創造了一種介於小號和鋼琴的樂器)。然而,模型是人工完成的,因此我們探索運用神經網絡來完成轉換操作。

 

2.背景

2.1 Constant Q-Transform

理論上,我們可以用原始波形數據作爲輸入訓練網絡,然而,頻率變換分析會使信號的諧波結構更清楚。因此,我們對音頻信號應用常量Q小波變換(CQT)。這個變換有許多令人滿意的特點,其中最重要的有:

1.變換使用了頻率的對數尺度。正如來自人類發聲系統的聲音波形一樣,這對於跨越了多個八度音階的聲音波形非常有用。

2. CQT變換具有很高的時間分辨率和對於高頻段有低的頻譜分辨率,而變換毫無疑問是對於低頻段的。這和耳蝸基膜對聲音波形的變換非常相似。


2.2 Deep Visual Analogy Making

深度視覺類比網絡是一個最近提出的神經網絡結構,在圖像域有着神奇的效果。網絡的目標是能夠做出如下類比:"A is to B as C is to D"。即,給定A、B、C作爲輸入我們能夠預測出D。一個例子:“新郎對新娘正如國王對皇后”。這個模型所採取的方法是學習輸入的embedding (嵌入),如此一來解決這些類比問題就非常簡單,例如:線性情況下:

φ(D)-φ(C)≈φ(B)-φ(A)

這個embedding如Figure 1所示。實際上它們的關係不必是線性的,這個關係能夠被更多層的神經網絡近似,正如我們模型的情況一樣。神經網絡的可視化如Figure 2所示。



這裏我們的目標函數:

 


2.3 Generative Adversarial Networks

生成對抗網絡(參見參考文獻[2])是最近的一種神經網絡結構。這些網絡被運用在圖像域來創造各種物體的令人十分相信的圖片(參見參考文獻[1])。它的基本思想是使用一個神經網絡作爲生成器和使用另一個神經網絡作爲判別器。這網絡在某種意義上是對抗的,生成模型試圖模仿一些真實的分佈,例如圖像,而判別網絡試圖分類來自真實分佈和生成的假的分佈的圖像。這個過程在Figure 3被清楚地表達了。


 

 

接下來的目標是求解一個極大極小問題:

 

實際上最優化這些網絡是非常困難的,需要用到許多tricks來實現。

 

3 Model

這裏我們結合了 Deep Visual Analogy Networks (VANs) 和 Generative Adversarial Networks (GANs) 的思想來創建一個能夠完成語音轉換的模型。VAN在GAN裏作爲生成模型,而我們GAN的判別器由一個分類器來實現,這個分類器不僅能夠辨別真和假的CQT樣本,並且能夠辨認樣本屬於哪個說話人和說的是哪一類的詞語。這個能夠被總結爲一個新的極小極大方程:

爲了增強分類器對於辨別假單詞和假說話人的能力我們將一個batch裏的樣本的一半取自生成模型,另外的樣本均勻地來自不同說話人和單詞的組合。我們的代碼能夠在https://github.com/ShariqM/smcnn上看到,模型參數可以在models/cnn.lua裏找到。

 

3.1 Results

結果如Figure 4所示. 雖然模型能夠很好地捕捉到說話人的諧波結構,但頻率分辨率有點差。這很可能是一個人爲的結果由於解碼階段的升採樣。這個數據來自僅有1個說話人和4個單詞的訓練數據集。音頻樣本能夠在下列鏈接裏被聽到:

_ https://dl.dropboxusercontent.com/u/7518467/Bruna/model2/GAN_results/results_red.wav

_ https://dl.dropboxusercontent.com/u/7518467/Bruna/model2/GAN_results/results_blue.wav

_ https://dl.dropboxusercontent.com/u/7518467/Bruna/model2/GAN_results/results_green.wav

_ https://dl.dropboxusercontent.com/u/7518467/Bruna/model2/GAN_results/results_white.wav

對於每一個文件,首先出來的是一個真實分佈的樣本,接着是一個來自生成模型的樣本。

 

3.2 Conclusion

我們首先爲了轉換說話人的音色開發了一個算法。我們的算法能夠生成偶爾聽起來相似於目標說話人的語音,但工作仍有待完成。訓練生成對抗網絡已經在實踐上證明了非常困難,更多的時間需要花在理解如何更好地最優化這裏的Conditional Generative AdversarialNetwork模型。

 

參考文獻

[1] Deep generative image models using a laplacian pyramid of adversarialnetworks

[2] Generative adversarial nets

[3] Deep visual analogy-making

[4] Pitch and timbre manipulations using cortical representation of sound


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章