Tacotron2是由Google Brain提出來的一個語音合成框架.
模型架構:
機器環境:
在Ubuntu16.04 Ubuntu16.04 GPU GeForce RTX 2080(單個GPU)
TensorFlow1.15 cuda10.0 cudnn7.6.3下完成.
github上有一個Tacotron-2的Tensorflow實現,地址
https://github.com/Rayhane-mamah/Tacotron-2
用上面的開源代碼跑Ljspeech數據集,tacotron_train_steps跑了 100000,wavenet_train_steps只跑了130000(默認是500000),聲碼器用的WaveNet.
由於機器內存不夠跑了幾次出現OOM,後來把hparams.py文件裏面的參數max_mel_frames由900改爲500,tacotron_batch_size由32改成16,outputs_per_step由1改成3,由於tensorflow版本原因,需要將modules.py文件裏面的
self._track_checkpointable(layer,name=‘layer’)改成
self._track_trackable(layer,name=‘layer’),否則會報錯.
跑了好幾天才跑完.
執行命令
python synthesize.py --model ='Tacotron-2’合成語音.