DurIAN: 基於時序注意力神經網絡的語音合成系統 | 論文解讀

{"type":"doc","content":[{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","text":"一、概述"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"隨着深度學習技術的興起和快速發展,以語音識別和合成爲代表的語音處理技術得到了極大的飛躍,語音交互逐漸成爲人機交互中的一個主流方式。而作爲人機語音交互的出口,語音合成的效果直接影響到人機交互到體驗,一個高質量的、穩定的語音合成系統能夠讓機器更加地擬人化,使人機交互過程更加自然。近年來,相比於傳統的幀級語音合成模型,基於注意力機制的序列到序列模型統一了時長模型和聲學模型的建模過程,提升了合成語音的自然度,該方案逐漸成爲主流的語音合成研究方向。然而,由於注意力機制的不可控問題,上述方案的穩定性相對較差,限制了其應用能力。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}}]}
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章