Uncovering Latent Style Factors for Expressive Speech Synthesis

最近拜讀王宇軒的舊作,希望能順着作者的思路窺得一點語音合成研究的方向。
這篇文章應該是宇軒大佬剛進谷歌發表的,2017年。應該是tacotron發表之後,GST的想法雛形,因此文章只放在axriv上邊。

abstract

本文旨在控制語音合成的韻律,在tacotron的基礎上加"style token",從而不需要註釋的數據,可以直接通過data-driven的方式,學到各種韻律的變化。變長的句子用定長的style factor表示,從而在某種可預測的,全局一致的層面控制韻律。

introduction

intelligibility: 內容表達完整
naturalness: 像人類的發音
expressiveness: 韻律正確
 很多情況下,TTS模型僅有文本輸入,而沒有聲學參考。韻律的變化本身就是多尺度的。pitch局部的變化以及發音時長會傳遞語義信息。全局基頻的包絡傳遞了情感。如果訓練數據中基頻變化很大,合成就很有挑戰性。或者即使訓練數據包含很多中性的韻律,在很小的時間分辨率上也會有韻律變化。
 style token可以通過無監督的方式學習,並且不需要註釋數據。在tacotron上的嘗試證明了style token確實和韻律相關,實現一定程度的可控。

model architecture

基於tacotron的結構加一個style token的encoder。
在這裏插入圖片描述
也可以通過其他方法生成多個韻律(比如啓動decoder的初始態,ref【6】)。使用attention-based style token的好處:(1)attention是一個很好的解碼器,可以把整體的韻律風格拆解成可解釋的獨立的韻律特徵;各個獨立的特徵組合起來可以組成整個特徵。(2)注意機制在解碼器的時間分辨率上學習樣式標記的組合,從而支持時變韻律操作。
style encoder沒有輸入(??沒搞明白那應該怎麼辦/?)
text-encoder輸入是文本向量,因此可以認爲style encoder只編碼文本無關的向量。

Related Work

 在HMM-based TTS時代就有對韻律和說話風格建模,比如,【7】首先把訓練集聚類,然後用HMM-based 聚類自適應訓練。【8】提出對預定義的style vector估計轉移矩陣。
 和HMM-based的思路相似,NN-based的方法更簡單一些,比如one-hot speaker codes。模型可以學到說話人的整體特徵,但是並不能控制特定的說話風格。條件輸入被定義爲control vector。【12】用一個隱向量表示control vector,但不同於本文的是,(1)網絡不同,(2)學習一套預定義的情感分類之間的細微差別,但本文沒有預定義,泛化性更好。
 總結本文和之前工作的區別:(1)證明了prosody/style control是端到端語音合成的一部分,之前僅在聲學模型中表達prosody和style. (2)從attention中得到可微的style token,得到的是一組相互獨立的韻律特徵,可以根據使用需求靈活的再組合。(3)無監督學習,因此更加可信和低成本。可以容易的自組合,也可以很好的和其他特定的control vector一起起作用。

results

數據集大部分是neutral prosody,有一個小的子集包含更多表示(遊戲主持,笑話,詩歌),使得模型學到這些變化(即使只佔數據集的一部分)。
在這裏插入圖片描述
在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章