7分鐘瞭解Facebook新AI的音樂風格遷移

編譯：chux

出品：ATYUN訂閱號

想象一下：你的朋友爲了聽一首歌糾纏了你好幾個星期，即使你告訴他們你不喜歡艾德·希蘭（Ed Sheeran），神煩！他們一直糾纏你，聲稱“旋律使它偉大”。要是你能換一種形式來聽這種旋律就好了，比如巴赫的管風琴協奏曲那樣。

因此，Facebook的人工智能研究團隊提出了一個音樂領域遷移系統，這個系統號稱可以翻譯“樂器，流派和風格”。如下視頻：

視頻內容

我很震驚，這是非常令人印象深刻的東西。它改進了兩個領域：領域轉移和音頻合成。領域遷移空間的最新進展在包含循環一致性（hehe）方面是一致的，如StarGAN（Choi等人，2017），CycleGAN（Zhu等人，2017），DiscoGAN（Kim等人，2017）），NounGAN（並不存在，但這些作者需要對他們的網絡名稱更具冒險精神！）。使用週期一致性損失的核心目標是鼓勵網絡保留所有與內容相關的信息，並專注於更改與領域相關的信息。

嗯，也許對你來說，這樣說比較混亂。讓我們拆開來講。循環一致性概括了以下陳述：F（G（X））≈X，函數G(X)應該有一個對應的逆F(X)，它近似地返回輸入X。通過引入循環一致性損失可以鼓勵這種情況，如下所示：

取在所有前向循環一致性x→G（x）→F（G（x））≈x和所有反向循環一致性的誤差 y→F（y）→G（F（y））≈y。

現在，對於區分是領域相關的信息還是與內容相關的信息，這個有點難。在GAN的上下文中，領域信息是給定輸入中確定其適合其這個領域的所有內容，而內容信息是關於圖像的所有其他內容。例如，如果我們以下這樣一輛汽車的圖像：

我們有一個領域的集合，其中包括這樣的汽車：{紅色汽車，藍色汽車，綠色汽車}，我們得出結論，圖像中所有與域相關的信息都是汽車的紅色，而諸如汽車的形狀、大燈的數量，背景等都是與內容相關的信息。

但FAIR團隊的模型不是循環一致的，我們稍微費了一些時間來研究這個問題，不過，至少我們學到一些。由於使用了teacher forcing，FAIR團隊的模型不是循環一致的 – 讓我們稍微看看這在實踐中意味着什麼。

teacher forcing是強化學習的一種形式。在訓練期間，模型輸入由前一個時間步的地面真值輸出組成。在訓練期間看到的序列是地面真值，因此是準確的，但是對於生成的樣本來說可能不是這樣。因此，生成的樣本序列遠離訓練期間看到的序列。

雖然，如果他們真的不想這樣，他們也可能會實現循環一致性損失係數，如Kaneko et. al。Kaneko et. al沒有使用自迴歸模型，這有一些非常有趣的意義，我稍後會講。

該團隊還爲每個輸出領域使用了一個解碼器，因爲單個解碼器顯然無法令人信服地在輸出域範圍內執行。

來看這個更有趣的部分，FAIR團隊使用了WaveNet。具體來說，是對NSynth數據集的WaveNet變體的改編。FAIR系統的不同之處在於：使用多個解碼器，解析領域混淆網絡，以及使用音調增強來阻止網絡惰性記憶數據。

改編自“Neural Audio Synthesis of Musical Notes with WaveNet Autoencoders”的WaveNet。

FAIR團隊使用的實際模型。

讓我們來看看這個領域混淆（domain confusion）。

論文“Domain-Adversarial Training of Neural Networks”描述了高效的領域遷移- 他們在當時達到了最先進的藝術表現，它們的原則是：“要實現有效的域名轉移，預測必須根據無法區分訓練（來源）和測試（目標）領域的特徵做出。

FAIR團隊使用對抗訓練來做到這一點。WaveNet自動編碼器是生成器，領域分類網絡是鑑別器。將對抗性項添加到自動編碼器的損失中可以鼓勵自動編碼器學習領域不變的潛在表示。這就是啓用單個自動編碼器的原因。

在上面的等式中可以看到很多東西，我們簡要分析一下。

L（y，y）是以元素方式應用於每個單獨的y^和目標y的交叉熵損失。
解碼器Dj是一種自迴歸模型，它取決於E的輸出（共享編碼器）。
O（s ^ j，r）是應用於具有隨機種子r的樣本的增強函數。
C是領域混淆網絡，其被訓練以最小化分類損失。
λ：負責解析。它確保潛在表示中的所有神經元都在學習輸入數據的不同內容。這是解析變分自動編碼器的一個關鍵特性。

他們訓練的領域代表了古典音樂中6種不同音色（音色：特定樂器的獨特聲音）和織體（織體：同時演奏的樂器和音符的數量）的傳播。其中一個特別突出的結果是，自動編碼器訓練的嵌入和音高之間的相關性 – 相同音高的樂器餘弦相似度在0.90-0.95範圍內。

7分鐘瞭解Facebook新AI的音樂風格遷移

使用neovim打造go ide(支持代碼跳轉, 代碼補全, 實時語法檢查)

挑戰程序設計競賽 2.3章習題 poj 3046 Ant Counting

Shell/Python中的用戶名獲取

RNN示例項目從開發到部署（三）：在AWS上部署深度學習模型

NVIDIA宣佈開源NVIDIA TensorRT推理服務器

俄羅斯研究人員利用神經網絡使金屬3D打印更加高效

亞馬遜改進平臺SageMaker，更新內置算法和Git集成

Geek Plus籌資1.5億美元，加速開發物流機器人

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結