Predicting Expressive Speaking Style From Text In End-To-End Speech Synthesis

原創

林林宋

2020-06-26 11:20

作者：Daisy Stanton, Yuxuan Wang
時間： 2018 arxiv
在GST之後的一篇文章

abstract

GST學到的是說話特徵解相關後的高維表示。本文提出text-predicting GST(TP-GST),可以直接從文本中預測風格，訓練和infer的時候都不需要額外的輸入。結果也表明我們的方法比兩個base model效果更好。

introduction

當前TTS的難點在於合成natural-sounding speech，它指的是高的音頻保真度，發音正常以及好的韻律（包含低級信息：pitch,stress, rhythm,break,etc)。本文的speaking style包含一些更高層次的東西，比如 emotional valence and arousal。很難從文本中獲得韻律，style相關的信息，而且同一句話有不同的但都合適的表示方式。有的方法會用額外的韻律註釋，但是這樣代價很高而且效果並不一定好。
許多TTS模型可以從訓練參數中學到韻律的潛在表示，比如英文疑問句的結束是一個上揚語調。然而合成長的，有表現力的語句仍然很難。【2】和【3】提出用模型學習解相關的speaking style特徵，需要從學到的韻律空間採樣或者手動選擇以生成輸出。
因此，語音合成系統需要能夠表示寬範圍的speaking style，而且在infer的時候不需要註釋就可以合成有表現力的句子。本文是GST模型的拓展，可以學習到說話人無關的因素變化。

model

TP-GST是在GST的基礎上添加了兩條infer時候可能的文本預測路徑，使得模型在infer的時候可以預測style embedding的兩種方式：
（1）TPCM—對訓練時候學到的GST進行線性插值，使用僅由文本預測的combination weights
（2）TPSE—忽視style token和combination weight，直接由text feature預測style embedding

因爲inference時候的style embedding選擇不影響訓練，因此text-prediction target可以聯合訓練。

TPCW-GST

對CBHG的輸出進行時間整合，輸出一個定長的序列。然後通過fc層預測的combination weights和GST的權重進行CE loss。

疑問：GST是否是提前訓好的？

TPSE-GST

training：GST作爲target，和直接求得的style-embedding prediction做L1 loss。
inference：GST沒有作用，僅通過text-feature預測style embedding。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Predicting Expressive Speaking Style From Text In End-To-End Speech Synthesis

abstract

introduction

model

TPCW-GST

TPSE-GST

Uncovering Latent Style Factors for Expressive Speech Synthesis

Many-to-many Cross-lingual Voice Conversion with a Jointly Trained Speaker Embedding Network

Predicting Expressive Speaking Style From Text In End-To-End Speech Synthesis

One-shot Voice Conversion with Global Speaker Embeddings

Neural Speech Synthesis with Transformer Network

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結