音视频双模态情感识别融合框架研究

前言

国内音视频双模态融合的相关期刊比较少,最近几年的一共不到10篇,因此每一篇都需要好好读一读。国内的读起来比较快,所以希望能够通过国内的综述快速知识体系,通过国内的高质量期刊和硕士论文了解研究方法和创新点,因为他们在做相关研究时候肯定参照了不少外刊,通过对比可以知道这个圈子的大小,了解到经典的文章有哪些。

摘要

针对双模态情感识别框架识别率低、可靠性差的问题,对情感识别最重要的两个模态语音和面部表情进行了双模态情感识别特征层融合的研究。采用基于先验知识的特征提取方法和VGGNet-19 网络分别对预处理后的音视频信号进行特征提取,以直接级联的方式并通过PCA 进行降维来达到特征融合的目的,使用BLSTM 网络进行模型构建以完成情感识别。将该框架应用到AViD-Corpus 和SEMAINE 数据库上进行测试,并和传统情感识别特征层融合框架以及基于VGGNet-19 或BLSTM 的框架进行了对比。实验结果表明,情感识别的均方根误差(RMSE)得到降低,皮尔逊相关系数(PCC)得到提高,验证了文中提出方法的有效性。

正文

1引言

文章开头介绍了多模态的优势,并说明多模态中决策融合和特征融合的区别和优势,介绍了之前每个模态的相关工作。最后提出了特征融合多模态中需要选择合适的融合方法从特征中得到信息,且如果数据量很少的情况下融合的特征维度过高会导致准确率降低。这篇文章针对上面问题提出了下图的架构,使用先验知识提取音频,vgg提取脸部表情特征,经过时序同步后进行级联,完成融合,在融合之后使用降维方法对融合特征降维。在决策网络中用BLISTM代替LSTM,捕捉上下文的信息更有效的进行识别。
在这里插入图片描述

2 音视频预处理和特征提取

音频预处理:归一属性,加重,加窗,端点检测去无声,特征提取,归一化。
视频特征提取:去除遮挡画面,图像归一化,68特征点提取且人脸对齐,VGG提取表情特征,归一化。

3 特征级联,降维,融合网络BLSTM建模

步骤一:为了保持时序同步性,每三秒的音视频输出是音频特征维度加上三秒内90帧面部表情的维度总和。
步骤二: PCA降低上一步的数据维度
步骤三:由于面部表情和声音是具有时序性的,因此采用BLSTM建模较好。

4 实验

数据集是AViD-Corpus 数据库和 SEMAINE 数据库,两个数据集都很长。

实验过程与结果

采用了五种对比方法,使用RMSE和PCC作为评价标准。得到如下的实验结果;
在这里插入图片描述
在这里插入图片描述
最后通过一番对比阐述了自己的方法很好。

总结

为了解决音视频双模态情感识别框架准确率低可靠性差的问题,本文基于传统的情感识别方法,在面部表情特征提取中采用了VGGNet-19 的方法,并在音视频特征级联之后融入PCA 降维,最后结合BLSTM 网络以同时考虑上下文信息,构建情感识别特征层融合框架,使用 AViD-Corpus 数据库和SEMAINE 数据库对该算法进行验证。结果显示,本文提出框架对比现有框架,RMSE 得到下降,PCC 得到提升,有效提升了情感识别框架的准确性和可靠性。

读后感

收获:这是我最开始看的一篇融合的文章,对我启发还是挺大的,明白怎么去提取音视频,怎么去融合,怎么选择融合模型。但是看过一些比较好的论文之后感觉作者方法还需要再揣摩。此外作者的写作思路很清晰,一步步的走到文章结束,其实感觉这篇论文工作可以写10页,但是被作者用7页就理清了。写作方法值得参考。
疑惑:1.音视频维度怎么级联的呢?是直接将三秒内的音频特征加上90帧视频特征吗?具体每个部分有多少呢? 2. 实验具体细节介绍得不太详细,数据维度变化没有给出,感觉作者可能不是cs科班的,因为在实验环境介绍上感觉有点不专业(小声bb)。3.参考文献挺多的, 但是感觉有的参考文献是不是没怎么看的。
思考:作者实验中对比的参考文献23是不是有代码呢?需要读一下该文章,了解之前工作是怎么做的,如果有代码就很好了。(半个小时后发现这个作者和我之前看的论文是一样的,这篇论文是有代码的,用tensorflow,已经公布了。。。。)
End-to-end multimodal emotion recognition using deep neural networks

总结:总的来说挺好的,收获和评价有助于自己的总结能力提高,别无他意。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章