Predicting Expressive Speaking Style From Text In End-To-End Speech Synthesis

作者:Daisy Stanton, Yuxuan Wang
時間: 2018 arxiv
在GST之後的一篇文章

abstract

GST學到的是說話特徵解相關後的高維表示。本文提出text-predicting GST(TP-GST),可以直接從文本中預測風格,訓練和infer的時候都不需要額外的輸入。結果也表明我們的方法比兩個base model效果更好。

introduction

 當前TTS的難點在於合成natural-sounding speech,它指的是高的音頻保真度,發音正常以及好的韻律(包含低級信息:pitch,stress, rhythm,break,etc)。本文的speaking style包含一些更高層次的東西,比如 emotional valence and arousal。很難從文本中獲得韻律,style相關的信息,而且同一句話有不同的但都合適的表示方式。有的方法會用額外的韻律註釋,但是這樣代價很高而且效果並不一定好。
 許多TTS模型可以從訓練參數中學到韻律的潛在表示,比如英文疑問句的結束是一個上揚語調。然而合成長的,有表現力的語句仍然很難。【2】和【3】提出用模型學習解相關的speaking style特徵,需要從學到的韻律空間採樣或者手動選擇以生成輸出。
因此,語音合成系統需要能夠表示寬範圍的speaking style,而且在infer的時候不需要註釋就可以合成有表現力的句子。本文是GST模型的拓展,可以學習到說話人無關的因素變化。

model

TP-GST是在GST的基礎上添加了兩條infer時候可能的文本預測路徑,使得模型在infer的時候可以預測style embedding的兩種方式
(1)TPCM—對訓練時候學到的GST進行線性插值,使用僅由文本預測的combination weights
(2)TPSE—忽視style token和combination weight,直接由text feature預測style embedding

因爲inference時候的style embedding選擇不影響訓練,因此text-prediction target可以聯合訓練。

TPCW-GST

在這裏插入圖片描述
對CBHG的輸出進行時間整合,輸出一個定長的序列。然後通過fc層預測的combination weights和GST的權重進行CE loss。

疑問:GST是否是提前訓好的?

TPSE-GST

在這裏插入圖片描述

training:GST作爲target,和直接求得的style-embedding prediction做L1 loss。
inference:GST沒有作用,僅通過text-feature預測style embedding。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章