Tacotron2語音合成

Tacotron2是由Google Brain提出來的一個語音合成框架.

模型架構:
在這裏插入圖片描述
機器環境:

在Ubuntu16.04 Ubuntu16.04 GPU GeForce RTX 2080(單個GPU)
TensorFlow1.15 cuda10.0 cudnn7.6.3下完成.

github上有一個Tacotron-2的Tensorflow實現,地址
https://github.com/Rayhane-mamah/Tacotron-2
用上面的開源代碼跑Ljspeech數據集,tacotron_train_steps跑了 100000,wavenet_train_steps只跑了130000(默認是500000),聲碼器用的WaveNet.

由於機器內存不夠跑了幾次出現OOM,後來把hparams.py文件裏面的參數max_mel_frames由900改爲500,tacotron_batch_size由32改成16,outputs_per_step由1改成3,由於tensorflow版本原因,需要將modules.py文件裏面的
self._track_checkpointable(layer,name=‘layer’)改成
self._track_trackable(layer,name=‘layer’),否則會報錯.
跑了好幾天才跑完.

執行命令
python synthesize.py --model ='Tacotron-2’合成語音.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章