Uncovering Latent Style Factors for Expressive Speech Synthesis

原創

2020-06-26 11:20

最近拜讀王宇軒的舊作，希望能順着作者的思路窺得一點語音合成研究的方向。
這篇文章應該是宇軒大佬剛進谷歌發表的，2017年。應該是tacotron發表之後，GST的想法雛形，因此文章只放在axriv上邊。

abstract

本文旨在控制語音合成的韻律，在tacotron的基礎上加"style token"，從而不需要註釋的數據，可以直接通過data-driven的方式，學到各種韻律的變化。變長的句子用定長的style factor表示，從而在某種可預測的，全局一致的層面控制韻律。

introduction

intelligibility: 內容表達完整
naturalness: 像人類的發音
expressiveness: 韻律正確
很多情況下，TTS模型僅有文本輸入，而沒有聲學參考。韻律的變化本身就是多尺度的。pitch局部的變化以及發音時長會傳遞語義信息。全局基頻的包絡傳遞了情感。如果訓練數據中基頻變化很大，合成就很有挑戰性。或者即使訓練數據包含很多中性的韻律，在很小的時間分辨率上也會有韻律變化。
style token可以通過無監督的方式學習，並且不需要註釋數據。在tacotron上的嘗試證明了style token確實和韻律相關，實現一定程度的可控。

model architecture

基於tacotron的結構加一個style token的encoder。

也可以通過其他方法生成多個韻律（比如啓動decoder的初始態,ref【6】）。使用attention-based style token的好處：（1）attention是一個很好的解碼器，可以把整體的韻律風格拆解成可解釋的獨立的韻律特徵；各個獨立的特徵組合起來可以組成整個特徵。（2）注意機制在解碼器的時間分辨率上學習樣式標記的組合，從而支持時變韻律操作。
style encoder沒有輸入（？？沒搞明白那應該怎麼辦/？）
text-encoder輸入是文本向量，因此可以認爲style encoder只編碼文本無關的向量。

Related Work

在HMM-based TTS時代就有對韻律和說話風格建模，比如，【7】首先把訓練集聚類，然後用HMM-based 聚類自適應訓練。【8】提出對預定義的style vector估計轉移矩陣。
和HMM-based的思路相似，NN-based的方法更簡單一些，比如one-hot speaker codes。模型可以學到說話人的整體特徵，但是並不能控制特定的說話風格。條件輸入被定義爲control vector。【12】用一個隱向量表示control vector，但不同於本文的是，（1）網絡不同，（2）學習一套預定義的情感分類之間的細微差別，但本文沒有預定義，泛化性更好。
總結本文和之前工作的區別：（1）證明了prosody/style control是端到端語音合成的一部分，之前僅在聲學模型中表達prosody和style. （2）從attention中得到可微的style token，得到的是一組相互獨立的韻律特徵，可以根據使用需求靈活的再組合。（3）無監督學習，因此更加可信和低成本。可以容易的自組合，也可以很好的和其他特定的control vector一起起作用。

results

數據集大部分是neutral prosody，有一個小的子集包含更多表示（遊戲主持，笑話，詩歌），使得模型學到這些變化（即使只佔數據集的一部分）。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Uncovering Latent Style Factors for Expressive Speech Synthesis

abstract

introduction

model architecture

Related Work

results

Uncovering Latent Style Factors for Expressive Speech Synthesis

Many-to-many Cross-lingual Voice Conversion with a Jointly Trained Speaker Embedding Network

Predicting Expressive Speaking Style From Text In End-To-End Speech Synthesis

One-shot Voice Conversion with Global Speaker Embeddings

Neural Speech Synthesis with Transformer Network

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結