會議:2019 APSIPA
作者:ZHOUYI Li Haizhou
單位:新加坡國立
abstract
average modeling approach用一個低維度的speaker embedding和vc網絡聯合訓練,可以達到many-to-many cross-lingual的效果。
base-model: vc+i-vector作爲speaker embedding表示。
introduction
average model可以表示訓練集說話人的average voice。但是需要adaptive step for new target speaker。
adaptation 的三種經典方法:
(1)average model用新的說話人的句子進行自適應,但是由於兩種語言之間的gap,會有較大的失真。
(2)用i-vector拼接在輸入特徵上,網絡學習說話人獨立的特徵映射。但是i-vector提取的模型是單獨的sv loss,沒有和vc model聯合訓練。
(3)deep voice2: trainable speaker embedding+TTS聯合訓練,模型可以學到seen speaker的能力。
本文提出:speaker embedding+vc聯合訓練。聲學特徵通過一個輔助的網絡的得到speaker embedding。
i-vector based vc
The training stage and conversion stage of the cross-lingual voice conversion system with the average model conditioned on i-vector.
vc with jointly trained speaker embedding
voice conversion的網絡把ppgs轉換成MCC,輔助的一個speaker embedding網絡,輸入同一個人一句話的MCC(不一定來自同一句話,最好不是),提取到定長的speaker embedding,然後repeat+拼接在ppgs編碼後的latent embedding上。
因爲speaker embedding的網絡和文本無關,只是從MCC中提取說話人身份信息,因此可以適用於cross-lingual的轉換中。
experiment
訓練和測試的數據選取:一共男en-16, mandarin-16,女en-16, mandarin-16。
ppgs: 341-bilingual-ppgs