End-to-End Multimodal Emotion Recognition using Deep Neural Networks解读

前言

这篇文章音视频多模态融合的经典之作,中科院一区,并且公布了tensorflow的源码,值得一看。

摘要

自动情感识别是一项具有挑战性的任务,因为可以用各种形式表达情感。应用程序可以在许多领域中找到,包括多媒体检索和人机交互。近年来,深度神经网络已经在确定情绪状态方面取得了巨大成功。受到这一成功的启发,我们提出了一种使用听觉和视觉模式的情绪识别系统。为了捕捉各种说话风格的情感内容,需要提取强大的功能。为此,我们利用卷积神经网络(CNN)从语音中提取特征,而对于视觉模态,使用50层的深度残余网络。除了特征提取的重要性之外,机器学习算法还需要对异常值不敏感,同时能够对上下文建模。为了解决这个问题,使用了长期的短期记忆网络。然后,系统以端到端的方式进行训练,同时利用每个流的相关性 - 我们在一致性相关系数方面设法显着优于传统方法,基于听觉和视觉手工制作的特征。在RECECA数据库中预测AVEC 2016对情绪识别的研究挑战的自发和自然情绪。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章