Many-to-many Cross-lingual Voice Conversion with a Jointly Trained Speaker Embedding Network

會議:2019 APSIPA
作者:ZHOUYI Li Haizhou
單位:新加坡國立

abstract

average modeling approach用一個低維度的speaker embedding和vc網絡聯合訓練,可以達到many-to-many cross-lingual的效果。
base-model: vc+i-vector作爲speaker embedding表示。

introduction

average model可以表示訓練集說話人的average voice。但是需要adaptive step for new target speaker。
adaptation 的三種經典方法:
(1)average model用新的說話人的句子進行自適應,但是由於兩種語言之間的gap,會有較大的失真。

(2)用i-vector拼接在輸入特徵上,網絡學習說話人獨立的特徵映射。但是i-vector提取的模型是單獨的sv loss,沒有和vc model聯合訓練。
(3)deep voice2: trainable speaker embedding+TTS聯合訓練,模型可以學到seen speaker的能力。
本文提出:speaker embedding+vc聯合訓練。聲學特徵通過一個輔助的網絡的得到speaker embedding。

i-vector based vc

在這裏插入圖片描述
The training stage and conversion stage of the cross-lingual voice conversion system with the average model conditioned on i-vector.

vc with jointly trained speaker embedding

在這裏插入圖片描述

voice conversion的網絡把ppgs轉換成MCC,輔助的一個speaker embedding網絡,輸入同一個人一句話的MCC(不一定來自同一句話,最好不是),提取到定長的speaker embedding,然後repeat+拼接在ppgs編碼後的latent embedding上。
因爲speaker embedding的網絡和文本無關,只是從MCC中提取說話人身份信息,因此可以適用於cross-lingual的轉換中。

experiment

訓練和測試的數據選取:一共男en-16, mandarin-16,女en-16, mandarin-16。
ppgs: 341-bilingual-ppgs
在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章