ICASSP2020中語音合成部分論文閱讀(未完待續)

ICASSP2020在5月份已經結束,拿到論文集後,慢慢花時間看一看同行的成果和進展,也算是汲取一點新鮮養分吧。
簡短介紹的同時也會附上自己粗淺鄙陋的想法。謬誤良多,不吝指教。

一. 綜述

       首先附上中科大凌震華老師關於這部分內容的綜述。
在這裏插入圖片描述

       可以看到,大部分論文是集中在聲學模型方面的,聲碼器也有幾篇。
在這裏插入圖片描述

       論文針對的聲學模型方面的問題主要表現在穩定性/韻律與表現力/個性化/多語種幾個方面,這也是我們工業界應用語音合成,實際面臨的主要問題。

       下面來看看具體的論文內容。

二. 聲學模型-穩定性

1. 《Focusing on Attention: Prosody Transfer and Adaptative Optimization Strategy for Multi-Speaker End-to-End Speech Synthesis》

在這裏插入圖片描述
       論文的主要內容就體現在上面這幅架構圖中。包括兩個方面,一是帶反饋機制的時長控制器用於魯棒的注意力機制,二是針對不匹配<語音,文本>訓練樣本的自適應優化策略。

       論文認爲TTS任務可能出現一些<語音,文本>數據不完全匹配的情況,單調注意力機制會有對齊問題,所以使用神經網絡作爲時長控制器,輸出注意力機制當前關注音素向前/向後/不動的概率,結合利用Location-sensitive-attention算出的原始權重,算出新的注意力權重。時長控制器的輸入包括韻律嵌入,其和說話人嵌入相同的方法得到。時長控制器的輸入還包括時長反饋變量。
       自適應優化策略則是針對樣本對齊概率,計算樣本匹配度,匹配度較低則認爲樣本標註有問題,所以給定更低的學習率。

       個人感受是,訓練樣本不匹配的情況實在不多,單調注意力機制在日常應用中效果很不錯。韻律嵌入的加入和相關使用情況也是不太明確,個人覺得單純看韻律遷移還是谷歌和百度的幾篇論文講的更好。學習率的自適應調整實際效果存疑,畢竟我們平時訓練模型一開始都是會給定較高的學習率,而按論文做法,訓練開始階段,對齊效果很差,學習率會給的較低。

三. 聲學模型-個性化

1. 《Semi-Supervised Speaker Adaptation for End-to-End Speech Synthesis with Pretrained Models》

       這篇論文沒有一點新意,就是將少量的語音數據通過ASR識別出文本,再將<語音,文本>在預訓練TTS模型上進行微調。(大家不都是這樣做的嘛)。結論就是隻有語音數據,通過該方式得到的模型,與成對<語音,文本>數據直接微調得到的TTS模型效果接近,比只有一半數量成對數據的效果要好,比多人預訓練模型上使用成對數據微調效果也要好。(比多人模型效果好,這點也和平時的經驗不一致吧)。

2. 《Zero-Shot Multi-Speaker Text-To-Speech with State-of-the-art Neural Speaker Embeddings》

       這篇論文的方法結構基本沿用了谷歌《Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis》等論文的思想,通過speaker encoder模塊預測出的speaker embedding提供給TTS使用,以此實現zero-shot。論文主要的貢獻在於對於某些模塊的不同實現方法的效果進行了對比。系統結構如下圖。
在這裏插入圖片描述

       論文用了一半的篇幅介紹了說話人驗證,也就是speaker encoder模塊,比較了兩種方法,x-vector 和 LDE embedding。整體LDE embedding方法在說話人識別結果和語音合成效果兩個方面都更好。對於speaker embedding插入TTS模型的位置,prenet+attention位置組合在合成語音相似度方面取得了最好結果。此外,基於性別相關基礎模型做自適應相比性別無關基礎模型要略好,而訓練集內說話人做自適應相比集外說話人效果要好很多,即TTS模型對於集內說話人仍然是過擬合的。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章