基于改进的GMM和频率弯折的高质量语音转换算法

大三下的数字信号处理的课程设计--变音处理,大体要求是完成声音的转变:例如将男声变成女声,童声变哆啦A梦等。

当时时间紧迫,没有足够的时间和组员自主完成,从网上下载了一些现成的东西。现把当时完成的东西贴上来,有机会再从头看看。内容均来自网络,其中GMM方法来自CodeOcean,文件如有侵权,请告知以便给您道歉并删除资源。大体有两种方法来实现变声,第一个比较的简单,通过声音的加速播放完成音色的转变;第二个是利用GMM算法进行学习声音的特点,将第二种声音得以转换。

一、加速变声色

原理不赘述,直接上代码如下(包括GUI,我源哥和强哥的作品)

通过改变声音的播放速度实现简单的变声

存在的问题:只能实现一次变换,多次试听不可操作。

二、GMM算法

简单说明:语音转换通过语音特征参数的转换来实现,想获得准确的语音特征参数,首先需要有一个良好的系统模型来对语音进行分析和合成。利用这个模型将语音特征参数提取处理后,经过训练和转换,再利用转换后的语音特征参数进行对应的语音合成,这样可以保证所得结果的准确性。 语音转换系统一般分为训练阶段和转换阶段。训练阶段主要完成的工作是将源和目标说话人的语音特征参数提取出来, 经过训练后找到转换规则,并得到转换函数。到了转换阶段时,将源说话人语音中的特征参数通过之前所得到的转换函数来进行转换,最终利用完成转换的参数以及语音合成技术来合成语音。整个系统的工作流程如图1所示(只能放图)。

图1 语音转换系统的流程图
图1 语音转换系统的流程图

 

对语音特征参数的提取主要包括声源参数和谱包络参数的提取。声源参数中主要对驻频参数进行提取,常见的提取方法包括短时自相关函数法、短时平均幅度差函数法(AMDF)和循环幅度差平方和函数法(SCMDSF)等。对于谱也络参数的提取算法比较多,其中线性预测系数模型提取信号谱参数较多。

通过提取的声道参数进行谱包络的训练和转换。常用的谱包络转换方法较多,例如:向量量化法、说话人插值法、线性多变量回归法、动态频率规整 DFW)、神经网络法以及高斯混合模型法(GMM);

实现代码如下:

利用GMM算法实现指定的音色间转换

 

参考文献

[1] 杨秀峰. 基于神经网络的语音转换算法研究[D]. 西安: 西安建筑科技大学, 2017.

[2] 唐斌. 基于 GMM 模型的语音转换技术研究[J]. 通讯世界, 2017 (18): 296-296.

[3] 解伟超. 语音转换中声道谱参数和基频变换算法的研究[D]. 南京: 南京邮电大学, 2013.

[4] 马倩倩. 基于个性特征的语音转换技术研究[D]. 河北经贸大学, 2013.

[5] Qavi A, Khan S A, Basir K. Voice morphing based on spectral features and prosodic modification[C]//Multi-Topic Conference (INMIC), 2014 IEEE 17th International. IEEE, 2014: 401-405.

[6] 李波, 王成友, 蔡宣平, . 语音转换及相关技术综述[J]. 通信学报, 2004, 25(5): 109-118.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章