Many-to-many Cross-lingual Voice Conversion with a Jointly Trained Speaker Embedding Network

原創

2020-06-26 11:20

會議：2019 APSIPA
作者：ZHOUYI Li Haizhou
單位：新加坡國立

abstract

average modeling approach用一個低維度的speaker embedding和vc網絡聯合訓練，可以達到many-to-many cross-lingual的效果。
base-model: vc+i-vector作爲speaker embedding表示。

introduction

average model可以表示訓練集說話人的average voice。但是需要adaptive step for new target speaker。
adaptation 的三種經典方法：
（1）average model用新的說話人的句子進行自適應，但是由於兩種語言之間的gap，會有較大的失真。

（2）用i-vector拼接在輸入特徵上，網絡學習說話人獨立的特徵映射。但是i-vector提取的模型是單獨的sv loss，沒有和vc model聯合訓練。
（3）deep voice2: trainable speaker embedding+TTS聯合訓練，模型可以學到seen speaker的能力。
本文提出：speaker embedding+vc聯合訓練。聲學特徵通過一個輔助的網絡的得到speaker embedding。

i-vector based vc

The training stage and conversion stage of the cross-lingual voice conversion system with the average model conditioned on i-vector.

vc with jointly trained speaker embedding

voice conversion的網絡把ppgs轉換成MCC，輔助的一個speaker embedding網絡，輸入同一個人一句話的MCC（不一定來自同一句話，最好不是），提取到定長的speaker embedding，然後repeat+拼接在ppgs編碼後的latent embedding上。
因爲speaker embedding的網絡和文本無關，只是從MCC中提取說話人身份信息，因此可以適用於cross-lingual的轉換中。

experiment

訓練和測試的數據選取：一共男en-16, mandarin-16,女en-16， mandarin-16。
ppgs: 341-bilingual-ppgs

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Many-to-many Cross-lingual Voice Conversion with a Jointly Trained Speaker Embedding Network

abstract

introduction

i-vector based vc

vc with jointly trained speaker embedding

experiment

Uncovering Latent Style Factors for Expressive Speech Synthesis

Many-to-many Cross-lingual Voice Conversion with a Jointly Trained Speaker Embedding Network

Predicting Expressive Speaking Style From Text In End-To-End Speech Synthesis

One-shot Voice Conversion with Global Speaker Embeddings

Neural Speech Synthesis with Transformer Network

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結