編譯:chux
出品:ATYUN訂閱號
厭倦了Alexa沉穩,單調的語調?現在,由於一種新的AI技術,亞馬遜可能很快就能夠將新的講話風格推廣到其語音助手。
在一篇新發表的論文“Effect of data reduction on sequence-to-sequence neural TTS”和隨附的博客文章中,亞馬遜詳細介紹了一種文本到語音(TTS)系統,該系統可以學習採用一種新的講話風格,比如新聞播音員的風格。只需幾個小時的訓練,就可以像新聞播報員那樣講話。傳統方法需要聘請配音演員,並以目標風格朗讀數十小時。
“對於用戶而言,神經網絡產生的合成語音聽起來比通過連接方法產生的語音更自然,這種方法將存儲在音頻數據庫中的短語音片段串聯起來,”亞馬遜應用科學經理Trevor Wood寫道,“隨着我們的系統提供的靈活性增加,我們可以輕鬆改變合成語音的講話風格。”
NTTS架構
亞馬遜的AI模型,稱爲神經TTS,或簡稱NTTS,由兩部分組成。第一部分是一個生成神經網絡,它轉化音素序列,區分一個詞和另一個詞的聲音單位到聲譜圖(一種聲音頻率譜,視覺表示隨時間變化)的序列中,如pad和patp中的p,b,d和t。
第二個部分是聲音編碼器,它可以轉換那些頻譜圖成一個連續的音頻信號,特別是有頻帶的mel-spectrogram,強調人腦在處理語音時使用的特徵。
Wood指出,現象到光譜圖解釋器網絡是序列到序列的,這意味着它不僅僅從相應的輸入計算輸出,而且考慮它在輸出序列中的位置。除了“風格編碼”之外,亞馬遜的科學家使用現象序列和相應的mel-spectrogram序列對其進行訓練,後者確定了訓練示例中使用的特定講話風格。
模型的輸出被輸入聲音編碼器,產生高質量的語音波形。獨特的是,聲音編碼器可以從任何揚聲器中獲取mel-spectrogram,無論它們是否在訓練時間內被看到,並且它不需要使用揚聲器編碼。
結果,一種模型訓練方法,結合了大量中性風格的語音數據,只需幾小時的所需風格的補充數據,以及能夠區分語音元素的AI系統,既是獨立的講話風格,風格又獨特。
亞馬遜傾聽者調查結果
“當在操作過程中呈現講話風格的代碼時,網絡會預測適合該風格的韻律模式,並將其應用於單獨生成的,風格不可知的表示,”Wood解釋道,“通過相對較少的額外訓練數據實現的高質量性能,可以快速擴展演講風格。”
根據亞馬遜的研究,聽衆更傾向於使用NTTS產生的聲音,而不是通過連接合成的聲音。
Wood表示,“對中性NTTS的偏好,反映了用神經生成方法將一般語音合成質量提高的廣泛報道,NTTS新聞播音員語音的進一步改進,反映了我們系統能夠捕捉與文本相關的風格。”這項新的研究是在Alexa的耳語模式首次亮相之後進行的。
論文:arxiv.org/abs/1811.06315