文章翻译:Learning Multi-level Deep Representation for Image Emotion Classification

标题:Learning Multi-level Deep Representations for Image Emotion Classification
作者:Tianrong Rao, Student Member, IEEE, Min Xu, Member, IEEE, Dong Xu, Senior Member , IEEE,
翻译:csf


基于学习多层次深度表征的图像情感分类

摘要

在这篇文章中,我们提出了一种新的基于学习多层次深度表征的深度网络用于解决图像的情感分类问题。图像的情感的感知可以通过利用图像全局和局部的图像语义、意像美学和低层次视觉特征来完成。现存的图像情感分类方法大多利用人工构造的特征或者是深层特征,主要集中在低层次的视觉特征或是语义层次的视觉表征而不是把所有的因素都考虑在内。而MldrNet网络结合了不同层次的深度表征,例如图像语义,意像美学,和低层次的视觉特征来有效的区分不同种类图像(如抽象画、互联网图片)的情感类型。广泛的实验表明,无论是在互联网图片还是抽象画上,本文提出的方法都优于使用手工特征和深层特征的当前最为先进的方法。就整体的分类精度而言,文中提出的方法的方法比当前最为先进的方法性能提升了至少6%.

1.简介

心理学研究早已揭示了人类的情感会随着不同的视觉刺激(例如图像和视频)而改变.受这些研究的启发,计算机科学家们开始预测在给定的一系列视觉内容下人类的情感反应.这样的研究课题被称为"图像情感分类",该课题在近些年来吸引了越来越多的关注.然而对比语义层的图像分析,由于情感的复杂性和独立性,在情感层对图像进行分析显得更加困难.

如图1所示,图像的情感与一些复杂的视觉特征息息相关,而这些特征又遍布图像全局和局部视图的低层次到高层次之中.来自局部视图的低层次视觉特征例如颜色,形状和纹理最先被用来用于图像的情感分类.Joshi等人认为图像的情感与艺术作品的意像美学有着高度的联系.基于他们的研究,我们可以运用构成、视觉平衡、强调等表现意像美学的中层特征对图像情感进行分类.Machajdik和Hanbury认为图像的语义内容能够有效地影响图像的情感.他们联合运用了全局视图的高层次图像语义和Itten的色彩关联的艺术理论来感知图像的情感.然而大多数现存的方法都依赖于手工构建特征,这些特征是基于人类普遍感觉和观察手工构建的.而这种方法很难将与图像情感有关的所有重要的因素(例如图像语义,意像美学和低层次的视觉特征等等)全部考虑在内.

近来,随着卷积神经网络大受欢迎,视觉认知任务取得很多重大突破(例如图像分类,图像分割,物体检测和场景识别).CNN提供了一种端对端的特征学习框架,它可以自动的从全局视图中学到图像的深层表征,而非手动构造图像特征.很多研究人员也把CNN用于图像的情感分类.然而,从图2我们可以看出,当前使用CNN的方法中,例如AlexNet,对于视觉识别来说,无法较好的处理中层次的意像美学和来源于局部视图的低层次图像特征.在参考文献[17]中,作者认为AlexNet不能足够有效的从抽象画中提取情感信息,而抽象画的情感则主要由中层次的意像美学和低层次的视觉特征表示.

另外,基于CNN的方法通常需要依赖于大规模手工构造的训练集.拥有不同文化背景的的人对于一张特定的图片可能有着非常不同的情感反应.因此,与互联网图片有关的情感文本语境(例如标题,标签和描述)可能并不足够可靠,而且还会致使从网络上搜集而来的用于情感分类的数据集可能会包含噪声和不准确的情感标签.现存的一些用于图像情感分类的方法,如AlexNet,在使用到那些带噪声标签的数据作为训练集的时候,可能会发生退化.

考虑到上面提到的两种挑战,在这篇文章中我们提出了一种新的可以从全局和局部视图中学习到多层次的深度表征的深度网络(MldrNet)用于解决图像的情感分类问题.图3是MldrNet网络的一个概述图.传统的CNN方法被设计用来对处于中心位置的物体进行分类,这样不能有效的提取中层次的意像美学和来自局部视图的低层次的视觉特征.为了对整个整个图像的不同层次的深度表征进行端到端的学习,我们提出了一种带分支的CNN模型来提取不同层次的深度表征.通过一个融合层,不同层次的深度表征被整合到一起用于执行分类任务.我们注意到,当使用带有噪声标签的数据作为训练数据的时候,不同的融合方法将严重影响到分类结果.为了展示我们MldrNet网络的效果和探索不同融合方法的影响,我们在很多公开可用的数据集(例如网络图片和抽象画)上做了大量的实验.

我们文章主要的贡献在于我们提出了一种基于CNN的结合了多种不同层次深度表征(例如那些来自全局和局部视图中的图像语义,意像美学,和低层次的视觉特征)的方法.通过结合这些不同层次的深度表征,我们的方法可以有效的从图像中提取到情感信息.实验结果表明,我们的方法优于使用手工特征和深层特征的当前最为先进的方法.

需要提醒的一点是,我们的文章是按照下面的方式组织起来的.在第二部分,我们将会重温与图像情感分类的相关网络模型.我们提出的用于图像情感分类的多层深度表征的网络会在第三部中介绍.在第四部分中,我们通过大量的实验呢来说明,我们的网络模型在跟现存已有的网络相比,不仅有效的提高了情感分类的效率,同时也在处理噪声标签时显得各更为有效.最后,我们在第五部分总结了我们网络的未来研究方向.

2.相关网络

这几年情感内容分析在多媒体领域已经得到了广泛的研究,包括文本,音频,视频和图像.对于视觉情感分类,现存的研究大约被分成两种方法:DES(dimensional emotion space)和CES(categorical emotion states).DES模型利用3维valence-arousal-control情感空间,3维natural-temporal-energetic隐含空间,3维activity-weight-heat情感因子,以及2维valence-arousal情感空间来为情感提供可预测的和灵活的描述.在CES模型中,计算结果被直接映射到几种基本类别(如愤怒,激动,悲伤等等)中的一种.与DES模型相比,CES模型更容易被人们理解和标注,因此在最近的研究中,这种方法得到了广泛的应用.为了把我们的成果与现有的成果做比较,我们采用CES模型将情绪分为8种类别,而这8种类别的情绪在严格的心理学研究中已经被预定义过了.
用于图像情感分类的视觉特征是从不同层次被设计和提取的.Yanulevskaya等人首次提出根据低层次特征(包含Gabor特征和Wiccest特征)对艺术品进行情感分类的方法.Solli 和 Lenz引入了一种基于颜色情感相关的图像描述符,这种源于心理物理学的实验的描述符被用于图像分类任务.参考文献[38]中讨论了形状特征对图像情感分类的影响.参考文献[5]中,从全局和局部视图中被提取到的SIFT特征被用于图像的情感预测.基于艺术和心理学理论,Machajdik等人定义了一种是由用丰富的手工设计而成的中层次特征构成的组合(包括构成,色差和纹理).赵等人在文[4]中引入了更多健壮的,稳定的中层次视觉特征,这些特征根据艺术原则来提取有关图像情感的信息.近年来,文[34]、[39]在视觉情感分析中引入了与对象检测相关的高级形容词名词对。Tkalcic等人在文献[40]中指出了面部表情对图像的情感影响,并且得到了基于高层次语义内容的图像情感标签.然而那些手工设计的视觉特征已经被证明只在一些小数据集上有效,这些数据集中的图像都是从一小部分特定领域(例如抽象画和肖像画)中选出来的.这限制了图像情感分类在大规模图像集中的应用.

考虑近期基于CNN的方法在许多计算机视觉任务(如图像分类,图像分割,物体检测和场景识别)上的大获成功,基于CNN的方法同样也被引入到了图像情感分析中.Peng等人在t文献呢[13]中率先尝试应用CNN模型.他们整合了在ImageNet上预训练过的卷积神经网络,并且说明了CNN模型在Emotion6数据及上的表现优于之前那些依赖不同层次手工设计的特征.You等人结合了CNN模型和SVM模型来在大规模网络图片的数据集下检测图像的情感.这些工作通常借助流行的CNN模型来完成,CNN模型也经常被用于图像情感分类中图像分类和物体检测任务.然而广泛的应用CNN模型不能有效的对图像进行分类,因为图像的情感主要由低层次和中层次的特征引发,如抽象画和艺术照.因此,在本文中,我们提出一种新的能够专门用于处理图像情感的CNN模型.

3. 提出的方法

在本部分中,我们引入了一种学习了多层深度表征(MldrNet)的方法来用于图像的情感分类.考虑到图像的情感与不同层级的特征(如高层图像语义,中层意像美学和低层视觉特征)有关,我们的方法用一种CNN结构统一了不同层级的深度表征.在此基础上,我们提出了一种用于聚合图像情感特征的融合层.根据前面提到的发现,用于视觉情感分类的情感类别被划分为8类.(积极乐观的情感有:愉悦,敬畏,满足和兴奋;消极悲观的情感有:愤怒,厌恶,担心和悲伤.)

A.卷积神经网络.

在引入我们MldrNet模型之前,让我们先来重温一下已经在计算机视觉领域得到广泛应用的CNN模型.给出一个训练样本{(x,y)}\{(x,y)\},其中xx是一张图像,yy是与之相关联的标签,CNN利用卷积层和全连通层提取输入图像的分层表示.紧接着就是softmax层,最后一层全连接层的输出可以被转化成一个概率分布pRmp \in R^m用于nn类的图像情感分类.其中,n=8n = 8表示8种类型.表示图片属于某种特定情感类别的可能性定义如下:pi=exp(hi)iexp(hi),i=1,...,n.(1)p_i = \frac{exp(h_i)}{\sum_{i}exp(h_i)},i=1,...,n. (1).其中hih_i表示最后一层全连接层的输出.所预测概率分布的损失函数e可以用交叉熵来表示L=iyilog(pi).(2)L=-\sum_{i}y_{i}log(p_i). (2).其中y={yiyi{0,1},i=1,...,n,i=1npi=1}y = \{y_i|y_i \in \{0,1\},i=1,...,n,\sum_{i=1}^{n}p_i = 1\}表示的是图像情感的真实标签.

AlexNet基于大规模数据集上对图像进行分类.它包含了5个卷积层,每层后都接一个最大池化层,再随后跟着3个全连接层,分别有4096,4096,8个神经元.AlexNet的结构如图4(a)所示.AlexNet主要用于在语义层对图像进行分类,而且该网络倾向于提取有关图像语义的高层次深度表征.但它并不能有效地从抽象画中提取信息,因为抽象画的情感主要由中层的意像美学和低层次的视觉特征来传达的.正如在第一部分中所讨论的那样,AlexNet所携带的信息不足以用于图像情感分类任务.

B.对于各种不同的CNN模型的分析.

与情感有关的图像特征大致可以被划分为低层次特征(颜色,线条和纹理),中层次特征(意像美学)和高层次特征(图像语义)这三类.因为CNN模型包含多层过滤器,经历过CNN模型的多层过滤器得到的图像表征的层次是很高的.这就意味着如果CNN结构包含更多的卷积层,那么从CNN结构中提取到的特征的层次就会更高.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章