亞馬遜利用神經TTS系統,僅需幾個小時即可模擬獨特的講話風格

編譯:chux

出品:ATYUN訂閱號

厭倦了Alexa沉穩,單調的語調?現在,由於一種新的AI技術,亞馬遜可能很快就能夠將新的講話風格推廣到其語音助手。

在一篇新發表的論文“Effect of data reduction on sequence-to-sequence neural TTS”和隨附的博客文章中,亞馬遜詳細介紹了一種文本到語音(TTS)系統,該系統可以學習採用一種新的講話風格,比如新聞播音員的風格。只需幾個小時的訓練,就可以像新聞播報員那樣講話。傳統方法需要聘請配音演員,並以目標風格朗讀數十小時。

“對於用戶而言,神經網絡產生的合成語音聽起來比通過連接方法產生的語音更自然,這種方法將存儲在音頻數據庫中的短語音片段串聯起來,”亞馬遜應用科學經理Trevor Wood寫道,“隨着我們的系統提供的靈活性增加,我們可以輕鬆改變合成語音的講話風格。”

NTTS架構

亞馬遜的AI模型,稱爲神經TTS,或簡稱NTTS,由兩部分組成。第一部分是一個生成神經網絡,它轉化音素序列,區分一個詞和另一個詞的聲音單位到聲譜圖(一種聲音頻率譜,視覺表示隨時間變化)的序列中,如pad和patp中的p,b,d和t。

第二個部分是聲音編碼器,它可以轉換那些頻譜圖成一個連續的音頻信號,特別是有頻帶的mel-spectrogram,強調人腦在處理語音時使用的特徵。

Wood指出,現象到光譜圖解釋器網絡是序列到序列的,這意味着它不僅僅從相應的輸入計算輸出,而且考慮它在輸出序列中的位置。除了“風格編碼”之外,亞馬遜的科學家使用現象序列和相應的mel-spectrogram序列對其進行訓練,後者確定了訓練示例中使用的特定講話風格。

模型的輸出被輸入聲音編碼器,產生高質量的語音波形。獨特的是,聲音編碼器可以從任何揚聲器中獲取mel-spectrogram,無論它們是否在訓練時間內被看到,並且它不需要使用揚聲器編碼。

結果,一種模型訓練方法,結合了大量中性風格的語音數據,只需幾小時的所需風格的補充數據,以及能夠區分語音元素的AI系統,既是獨立的講話風格,風格又獨特。

亞馬遜傾聽者調查結果

“當在操作過程中呈現講話風格的代碼時,網絡會預測適合該風格的韻律模式,並將其應用於單獨生成的,風格不可知的表示,”Wood解釋道,“通過相對較少的額外訓練數據實現的高質量性能,可以快速擴展演講風格。”

根據亞馬遜的研究,聽衆更傾向於使用NTTS產生的聲音,而不是通過連接合成的聲音。

Wood表示,“對中性NTTS的偏好,反映了用神經生成方法將一般語音合成質量提高的廣泛報道,NTTS新聞播音員語音的進一步改進,反映了我們系統能夠捕捉與文本相關的風格。”這項新的研究是在Alexa的耳語模式首次亮相之後進行的。

論文:arxiv.org/abs/1811.06315

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章