亞馬遜利用神經TTS系統，僅需幾個小時即可模擬獨特的講話風格

編譯：chux

出品：ATYUN訂閱號

厭倦了Alexa沉穩，單調的語調？現在，由於一種新的AI技術，亞馬遜可能很快就能夠將新的講話風格推廣到其語音助手。

在一篇新發表的論文“Effect of data reduction on sequence-to-sequence neural TTS”和隨附的博客文章中，亞馬遜詳細介紹了一種文本到語音（TTS）系統，該系統可以學習採用一種新的講話風格，比如新聞播音員的風格。只需幾個小時的訓練，就可以像新聞播報員那樣講話。傳統方法需要聘請配音演員，並以目標風格朗讀數十小時。

“對於用戶而言，神經網絡產生的合成語音聽起來比通過連接方法產生的語音更自然，這種方法將存儲在音頻數據庫中的短語音片段串聯起來，”亞馬遜應用科學經理Trevor Wood寫道，“隨着我們的系統提供的靈活性增加，我們可以輕鬆改變合成語音的講話風格。”

NTTS架構

亞馬遜的AI模型，稱爲神經TTS，或簡稱NTTS，由兩部分組成。第一部分是一個生成神經網絡，它轉化音素序列，區分一個詞和另一個詞的聲音單位到聲譜圖（一種聲音頻率譜，視覺表示隨時間變化）的序列中，如pad和patp中的p，b，d和t。

第二個部分是聲音編碼器，它可以轉換那些頻譜圖成一個連續的音頻信號，特別是有頻帶的mel-spectrogram，強調人腦在處理語音時使用的特徵。

Wood指出，現象到光譜圖解釋器網絡是序列到序列的，這意味着它不僅僅從相應的輸入計算輸出，而且考慮它在輸出序列中的位置。除了“風格編碼”之外，亞馬遜的科學家使用現象序列和相應的mel-spectrogram序列對其進行訓練，後者確定了訓練示例中使用的特定講話風格。

模型的輸出被輸入聲音編碼器，產生高質量的語音波形。獨特的是，聲音編碼器可以從任何揚聲器中獲取mel-spectrogram，無論它們是否在訓練時間內被看到，並且它不需要使用揚聲器編碼。

結果，一種模型訓練方法，結合了大量中性風格的語音數據，只需幾小時的所需風格的補充數據，以及能夠區分語音元素的AI系統，既是獨立的講話風格，風格又獨特。

亞馬遜傾聽者調查結果

“當在操作過程中呈現講話風格的代碼時，網絡會預測適合該風格的韻律模式，並將其應用於單獨生成的，風格不可知的表示，”Wood解釋道，“通過相對較少的額外訓練數據實現的高質量性能，可以快速擴展演講風格。”

根據亞馬遜的研究，聽衆更傾向於使用NTTS產生的聲音，而不是通過連接合成的聲音。

Wood表示，“對中性NTTS的偏好，反映了用神經生成方法將一般語音合成質量提高的廣泛報道，NTTS新聞播音員語音的進一步改進，反映了我們系統能夠捕捉與文本相關的風格。”這項新的研究是在Alexa的耳語模式首次亮相之後進行的。

論文：arxiv.org/abs/1811.06315

亞馬遜利用神經TTS系統，僅需幾個小時即可模擬獨特的講話風格

Wireshark 安裝+使用（一）

RNN示例項目從開發到部署（三）：在AWS上部署深度學習模型

NVIDIA宣佈開源NVIDIA TensorRT推理服務器

俄羅斯研究人員利用神經網絡使金屬3D打印更加高效

亞馬遜改進平臺SageMaker，更新內置算法和Git集成

Geek Plus籌資1.5億美元，加速開發物流機器人

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結