最新情感识别技术:深度信念网络的语音情感识别方法及系统

一种深度信念网络的语音情感识别方法及系统

技术领域

本系统涉及语音识别领域,特别是涉及一种深度信念网络的语音情感识别方法及系统。

背景技术

随着云计算、移动互联网、大数据的发展,机器为人类服务愈加智能化,人与机器用自然语言进行对话的梦想逐步接近实现,人们对机器交互能力的要求也越来越高。简单的语音内容的识别已经不能满足人们的要求,处理、识别和理解语音中的情感在实际应用中已经变得尤为重要。语言情感识别具有非常广阔的应用前景,它不仅可以应用于人机交互系统,还可以用于语音识别,增强语音识别的鲁棒性;或者用于说话人辨别,提高说话人辨别率。语音情感识别技术在智能人机交互、人机交互教学、得到广泛的应用。自动语言情感识别的研究,不但能够推动计算机技术的进一步发展,它也将大大提高了人们的工作和学习效率,提高人们的生活质量。

对外界各种情感信号进行采样来识别各种情感,在深度神经网络研究方面,对于情感分类的准确性低,在模式识别方面,采用现有技术中的基于神经网络提取语音中的情感,对于悲伤、兴奋、欢乐和愤怒情感的识别率较低,采用自适应神经网络对语音情感状态的识别率也较低。

采用传统的神经网络在训练时,网络各层是作为整体一起训练的,当面临大数据情况时,就会增加网络的训练时间,使网络的收敛速度变得更慢。反向传播算法是神经网络训练中最常用到的方法,通过迭代的方法来训练整个神经网络,网络参数采用随机化的方式进行初始化,利用当前计算所获得的网络最顶层的输出值和数据的实际值之差来调整网络各层的参数,采用传统的梯度下降法,更新参数的目标是使得网络预测值与真实值更为接近,但是,采用随机初始化的方式来初始化网络参数,会导致网络更新时越往下误差校正信号越弱,梯度也变得更加稀疏,从而网络容易陷入局部最优。所以导致语音情感状态的识别率低。

发明内容

本系统的目的是提供一种能够提高语音情感识别率的深度信念网络的语音情感识别方法及系统。

为实现上述目的,本系统提供了如下方案:

一种深度信念网络的语音情感识别方法,其特征在于,所述识别方法包括:

获取语音信号;

预处理所述语音信号,获得预处理语音信号;

对所述预处理语音信号采用深度信念网络进行无监督的语音信号特征提取,获得语音信号特征;

将所述语音信号特征采用支持向量机进行语音情感的识别分类,获得语音情感识别结果。

可选的,所述对所述预处理语音信号采用深度信念网络进行无监督的语音信号特征提取,获得语音信号特征具体包括:

将低层至高层的N层限制玻尔兹曼机堆叠,获得深度信念网络;

根据所述预处理语音信号对第i层的限制玻尔兹曼机进行无监督训练,获得第i最优参数,所述第i最优参数为所述第i层的限制玻尔兹曼机的最优参数;其中,i的取值依次为1,2,......,N;

根据所述第i最优参数和所述预处理语音信号对第i+1层的限制玻尔兹曼机进行无监督训练,获得第i+1最优参数;

将所述多个最优参数利用全局训练的方法微调至所述深度信念网络收敛至全局最优,获得多个微调最优参数;

根据所述微调最优参数提取所述预处理语音信号的语音信号特征。

可选的,所述将所述语音信号特征采用支持向量机进行语音情感的识别分类,获得语音情感识别结果具体包括:

采用核函数将所述语音信号特征的样本点映射到高维特征空间,获得空间线性可分的样本;

所述支持向量机根据所述空间线性可分的样本对所述语音信号特征进行逻辑判断,获得语音情感识别结果。

一种深度信念网络的语音情感识别系统,所述识别系统包括:

语音信号获取模块,用于获取语音信号;

语音信号预处理模块,用于预处理所述语音信号,获得预处理语音信号;

特征提取模块,用于对所述预处理语音信号采用深度信念网络进行无监督的语音信号特征提取,获得语音信号特征;

情感识别模块,用于将所述语音信号特征采用支持向量机进行语音情感的识别分类,获得语音情感识别结果。

可选的,所述特征提取模块具体包括:

深度信念网络建立单元,用于将低层至高层的N层限制玻尔兹曼机堆叠,获得深度信念网络;

监督训练单元,用于根据所述预处理语音信号对第i层的限制玻尔兹曼机进行无监督训练,获得第i最优参数,所述第i最优参数为所述第i层的限制玻尔兹曼机的最优参数;其中,i的取值依次为1,2,......,N;根据所述第i最优参数和所述预处理语音信号对第i+1层的限制玻尔兹曼机进行无监督训练,获得第i+1最优参数;

参数微调单元,用于将所述多个最优参数利用全局训练的方法微调至所述深度信念网络收敛至全局最优,获得多个微调最优参数;

语音信号特征提取单元,用于根据所述微调最优参数提取所述预处理语音信号的语音信号特征。

可选的,所述情感识别模块具体包括:

核函数单元,用于采用核函数将所述语音信号特征的样本点映射到高维特征空间,获得空间线性可分的样本;

逻辑判断单元,用于所述支持向量机根据所述空间线性可分的样本对所述语音信号特征进行逻辑判断,获得语音情感识别结果。

根据本系统提供的具体实施例,本系统公开了以下技术效果:本系统公开了一种深度信念网络的语音情感识别方法及系统。所述识别方法包括:获取语音信号;预处理所述语音信号,获得预处理语音信号;对所述预处理语音信号采用深度信念网络进行无监督的语音信号特征提取,获得语音信号特征;将所述语音信号特征采用支持向量机进行语音情感的识别分类,获得语音情感识别结果。采用所述深度信念网络逐层训练每个限制玻尔兹曼机的方式来达到训练整个训练整个所述深度信念网络,利用基于所述深度信念网络和所述限制玻尔兹曼机的多分类器模型,建立了一个语音情感识别的多分类器系统,提高了语音情感的识别率。

附图说明

为了更清楚地说明本系统实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本系统的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本系统提供的深度信念网络的语音情感识别方法的流程图;

图2为本系统提供的深度信念网络的语音情感识别系统的结构组成图;

图3为本系统提供的基于支持向量机的情识别系统框图。

具体实施方式

下面将结合本系统实施例中的附图,对本系统实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本系统一部分实施例,而不是全部的实施例。基于本系统中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本系统保护的范围。

本系统的目的是提供一种能够提高语音情感识别率的深度信念网络的语音情感识别方法及系统。

为使本系统的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本系统作进一步详细的说明。

如图1所示,一种深度信念网络的语音情感识别方法,其特征在于,所述识别方法包括:

步骤100:获取语音信号;

步骤200:预处理所述语音信号,获得预处理语音信号;

步骤300:对所述预处理语音信号采用深度信念网络进行无监督的语音信号特征提取,获得语音信号特征;

步骤400:将所述语音信号特征采用支持向量机进行语音情感的识别分类,获得语音情感识别结果。

所述步骤300:对所述预处理语音信号采用深度信念网络进行无监督的语音信号特征提取,获得语音信号特征具体包括:

将低层至高层的N层限制玻尔兹曼机堆叠,获得深度信念网络;

根据所述预处理语音信号对第i层的限制玻尔兹曼机进行无监督训练,获得第i最优参数,所述第i最优参数为所述第i层的限制玻尔兹曼机的最优参数;其中,i的取值依次为1,2,......,N;

根据所述第i最优参数和所述预处理语音信号对第i+1层的限制玻尔兹曼机进行无监督训练,获得第i+1最优参数;

将所述多个最优参数利用全局训练的方法微调至所述深度信念网络收敛至全局最优,获得多个微调最优参数;

根据所述微调最优参数提取所述预处理语音信号的语音信号特征。

所述步骤400:将所述语音信号特征采用支持向量机进行语音情感的识别分类,获得语音情感识别结果具体包括:

采用核函数将所述语音信号特征的样本点映射到高维特征空间,获得空间线性可分的样本;

所述支持向量机根据所述空间线性可分的样本对所述语音信号特征进行逻辑判断,获得语音情感识别结果。

如图2所示,一种深度信念网络的语音情感识别系统,所述识别系统包括:

语音信号获取模块1,用于获取语音信号;

语音信号预处理模块2,用于预处理所述语音信号,获得预处理语音信号;

特征提取模块3,用于对所述预处理语音信号采用深度信念网络进行无监督的语音信号特征提取,获得语音信号特征;

情感识别模块4,用于将所述语音信号特征采用支持向量机进行语音情感的识别分类,获得语音情感识别结果。

所述特征提取模块3具体包括:

深度信念网络建立单元,用于将低层至高层的N层限制玻尔兹曼机堆叠,获得深度信念网络;

监督训练单元,用于根据所述预处理语音信号对第i层的限制玻尔兹曼机进行无监督训练,获得第i最优参数,所述第i最优参数为所述第i层的限制玻尔兹曼机的最优参数;其中,i的取值依次为1,2,......,N;根据所述第i最优参数和所述预处理语音信号对第i+1层的限制玻尔兹曼机进行无监督训练,获得第i+1最优参数;

参数微调单元,用于将所述多个最优参数利用全局训练的方法微调至所述深度信念网络收敛至全局最优,获得多个微调最优参数;

语音信号特征提取单元,用于根据所述微调最优参数提取所述预处理语音信号的语音信号特征。

所述情感识别模块4具体包括:

核函数单元,用于采用核函数将所述语音信号特征的样本点映射到高维特征空间,获得空间线性可分的样本;

逻辑判断单元,用于所述支持向量机根据所述空间线性可分的样本对所述语音信号特征进行逻辑判断,获得语音情感识别结果。

由深度信念网络提取出语音信号中的情感特征的多维特征向量后,需要一个适合情感分类器。本方法采用支持向量机采用一对一方式对四种情感(惊奇、高兴、愤怒、悲伤)进行分类。将深度信念网络提取出语音信号中的情感特征的多维特征向量作为支持向量机分类器的输入,对于语音情感的非线性可分问题,利用核函数将输入特征的样本点映射到高维特征空间,使得对应的样本空间线性可分。基于支持向量机的情识别系统框图如图3所示。

一对一”方式是对任意两种情感构建超平面,需要训练k*(k-1)/2个子分类器。整个训练过程一共需要个支持向量机子分类器,即6个。每一个子分类器由惊奇、高兴、愤怒、悲伤四种情感特征中的任意两种训练而成。即:高兴-愤怒,高兴-悲伤,高兴-惊奇,愤怒-悲伤,愤怒-惊奇,悲伤-惊奇。在每两类间训练一个分类器,当对一个未知语音情感进行分类时,每个分类器都对其类别进行判断.并为相应的类别“投上一票”,最后得票最多的类别即作为该未知情感的类别。决策阶段采用投票法,可能存在多个类的票数相同的情况,从而使未知样本同时属于多个类别,影响分类精度。

支持向量机分类器训练和识别之前均需为每句情感语音信号设计一个标签,用以表示该句情感语音信号所属的情感类别。标签的类型必须设为双型。在情感识别过程中,同时将特征向量输入到所有支持向量机中,每个支持向量机的输出通过逻辑判决后来选择最可能的情感类别,最终把权值最高(票数最多)的情感作为待识别语音信号的情感状态,能够得到识别结果。

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。

本文中应用了具体个例对本系统的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本系统的方法及其核心思想;同时,对于本领域的一般技术人员,依据本系统的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本系统的限制。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章