文章翻译:Learning Multi-level Deep Representation for Image Emotion Classification,深入理解卷积层

标题:Learning Multi-level Deep Representations for Image Emotion Classification
作者:Tianrong Rao, Student Member, IEEE, Min Xu, Member, IEEE, Dong Xu, Senior Member , IEEE,
翻译:蔡少斐


基于学习多层次深度表征的图像情感分类

摘要

在这篇文章中,我们提出了一种新的基于学习多层次深度表征的深度网络用于解决图像的情感分类问题。图像的情感的感知可以通过利用图像全局和局部的图像语义、意像美学和低层次视觉特征来完成。现存的图像情感分类方法大多利用人工构造的特征或者是深层特征,主要集中在低层次的视觉特征或是语义层次的视觉表征而不是把所有的因素都考虑在内。而MldrNet网络结合了不同层次的深度表征,例如图像语义,意像美学,和低层次的视觉特征来有效的区分不同种类图像(如抽象画、互联网图片)的情感类型。广泛的实验表明,无论是在互联网图片还是抽象画上,本文提出的方法都优于使用手工特征和深层特征的当前最为先进的方法。就整体的分类精度而言,文中提出的方法的方法比当前最为先进的方法性能提升了至少6%.

1.简介

心理学研究早已揭示了人类的情感会随着不同的视觉刺激(例如图像和视频)而改变.受这些研究的启发,计算机科学家们开始预测在给定的一系列视觉内容下人类的情感反应.这样的研究课题被称为"图像情感分类",该课题在近些年来吸引了越来越多的关注.然而对比语义层的图像分析,由于情感的复杂性和独立性,在情感层对图像进行分析显得更加困难.
在这里插入图片描述
如图1所示,图像的情感与一些复杂的视觉特征息息相关,而这些特征又遍布图像全局和局部视图的低层次到高层次之中.来自局部视图的低层次视觉特征例如颜色,形状和纹理最先被用来用于图像的情感分类.Joshi等人认为图像的情感与艺术作品的意像美学有着高度的联系.基于他们的研究,我们可以运用构成、视觉平衡、强调等表现意像美学的中层特征对图像情感进行分类.Machajdik和Hanbury认为图像的语义内容能够有效地影响图像的情感.他们联合运用了全局视图的高层次图像语义和Itten的色彩关联的艺术理论来感知图像的情感.然而大多数现存的方法都依赖于手工构建特征,这些特征是基于人类普遍感觉和观察手工构建的.而这种方法很难将与图像情感有关的所有重要的因素(例如图像语义,意像美学和低层次的视觉特征等等)全部考虑在内.
在这里插入图片描述
近来,随着卷积神经网络大受欢迎,视觉认知任务取得很多重大突破(例如图像分类,图像分割,物体检测和场景识别).CNN提供了一种端对端的特征学习框架,它可以自动的从全局视图中学到图像的深层表征,而非手动构造图像特征.很多研究人员也把CNN用于图像的情感分类.然而,从图2我们可以看出,当前使用CNN的方法中,例如AlexNet,对于视觉识别来说,无法较好的处理中层次的意像美学和来源于局部视图的低层次图像特征.在参考文献[17]中,作者认为AlexNet不能足够有效的从抽象画中提取情感信息,而抽象画的情感则主要由中层次的意像美学和低层次的视觉特征表示.

另外,基于CNN的方法通常需要依赖于大规模手工构造的训练集.拥有不同文化背景的的人对于一张特定的图片可能有着非常不同的情感反应.因此,与互联网图片有关的情感文本语境(例如标题,标签和描述)可能并不足够可靠,而且还会致使从网络上搜集而来的用于情感分类的数据集可能会包含噪声和不准确的情感标签.现存的一些用于图像情感分类的方法,如AlexNet,在使用到那些带噪声标签的数据作为训练集的时候,可能会发生退化.
在这里插入图片描述
考虑到上面提到的两种挑战,在这篇文章中我们提出了一种新的可以从全局和局部视图中学习到多层次的深度表征的深度网络(MldrNet)用于解决图像的情感分类问题.图3是MldrNet网络的一个概述图.传统的CNN方法被设计用来对处于中心位置的物体进行分类,这样不能有效的提取中层次的意像美学和来自局部视图的低层次的视觉特征.为了对整个整个图像的不同层次的深度表征进行端到端的学习,我们提出了一种带分支的CNN模型来提取不同层次的深度表征.通过一个融合层,不同层次的深度表征被整合到一起用于执行分类任务.我们注意到,当使用带有噪声标签的数据作为训练数据的时候,不同的融合方法将严重影响到分类结果.为了展示我们MldrNet网络的效果和探索不同融合方法的影响,我们在很多公开可用的数据集(例如网络图片和抽象画)上做了大量的实验.

我们文章主要的贡献在于我们提出了一种基于CNN的结合了多种不同层次深度表征(例如那些来自全局和局部视图中的图像语义,意像美学,和低层次的视觉特征)的方法.通过结合这些不同层次的深度表征,我们的方法可以有效的从图像中提取到情感信息.实验结果表明,我们的方法优于使用手工特征和深层特征的当前最为先进的方法.

需要提醒的一点是,我们的文章是按照下面的方式组织起来的.在第二部分,我们将会重温与图像情感分类的相关网络模型.我们提出的用于图像情感分类的多层深度表征的网络会在第三部中介绍.在第四部分中,我们通过大量的实验呢来说明,我们的网络模型在跟现存已有的网络相比,不仅有效的提高了情感分类的效率,同时也在处理噪声标签时显得各更为有效.最后,我们在第五部分总结了我们网络的未来研究方向.

2.相关网络

这几年情感内容分析在多媒体领域已经得到了广泛的研究,包括文本,音频,视频和图像.对于视觉情感分类,现存的研究大约被分成两种方法:DES(dimensional emotion space)和CES(categorical emotion states).DES模型利用3维valence-arousal-control情感空间,3维natural-temporal-energetic隐含空间,3维activity-weight-heat情感因子,以及2维valence-arousal情感空间来为情感提供可预测的和灵活的描述.在CES模型中,计算结果被直接映射到几种基本类别(如愤怒,激动,悲伤等等)中的一种.与DES模型相比,CES模型更容易被人们理解和标注,因此在最近的研究中,这种方法得到了广泛的应用.为了把我们的成果与现有的成果做比较,我们采用CES模型将情绪分为8种类别,而这8种类别的情绪在严格的心理学研究中已经被预定义过了.

用于图像情感分类的视觉特征是从不同层次被设计和提取的.Yanulevskaya等人首次提出根据低层次特征(包含Gabor特征和Wiccest特征)对艺术品进行情感分类的方法.Solli 和 Lenz引入了一种基于颜色情感相关的图像描述符,这种源于心理物理学的实验的描述符在图像分类任务中得到了应用.参考文献[38]中讨论了形状特征对图像情感分类的影响.参考文献[5]中,从全局和局部视图中被提取到的SIFT特征被用于图像的情感预测.基于艺术和心理学理论,Machajdik等人定义了一种是由用丰富的手工设计而成的中层次特征构成的组合(包括构成,色差和纹理).赵等人在文[4]中引入了更多健壮的,稳定的中层次视觉特征,这些特征根据艺术原则来提取有关图像情感的信息.近年来,文[34]、[39]在视觉情感分析中引入了与对象检测相关的高级形容词名词对。Tkalcic等人在文献[40]中指出了面部表情对图像的情感影响,并且得到了基于高层次语义内容的图像情感标签.然而那些手工设计的视觉特征已经被证明只在一些小数据集上有效,这些数据集中的图像都是从一小部分特定领域(例如抽象画和肖像画)中选出来的.这限制了图像情感分类在大规模图像集中的应用.

考虑近期基于CNN的方法在许多计算机视觉任务(如图像分类,图像分割,物体检测和场景识别)上的大获成功,基于CNN的方法同样也被引入到了图像情感分析中.Peng等人在t文献呢[13]中率先尝试应用CNN模型.他们整合了在ImageNet上预训练过的卷积神经网络,并且说明了CNN模型在Emotion6数据及上的表现优于之前那些依赖不同层次手工设计的特征.You等人结合了CNN模型和SVM模型来在大规模网络图片的数据集下检测图像的情感.这些工作通常借助流行的CNN模型来完成,CNN模型也经常被用于图像情感分类中图像分类和物体检测任务.然而广泛的应用CNN模型不能有效的对图像进行分类,因为图像的情感主要由低层次和中层次的特征引发,如抽象画和艺术照.因此,在本文中,我们提出一种新的能够专门用于处理图像情感的CNN模型.

3. 提出的方法

在本部分中,我们引入了一种学习了多层深度表征(MldrNet)的方法来用于图像的情感分类.考虑到图像的情感与不同层级的特征(如高层图像语义,中层意像美学和低层视觉特征)有关,我们的方法用一种CNN结构统一了不同层级的深度表征.在此基础上,我们提出了一种用于聚合图像情感特征的融合层.根据前面提到的发现,用于视觉情感分类的情感类别被划分为8类.(积极乐观的情感有:愉悦,敬畏,满足和兴奋;消极悲观的情感有:愤怒,厌恶,担心和悲伤.)

A.卷积神经网络.

在引入我们MldrNet模型之前,让我们先来重温一下已经在计算机视觉领域得到广泛应用的CNN模型.给出一个训练样本{(x,y)}\{(x,y)\},其中xx是一张图像,yy是与之相关联的标签,CNN利用卷积层和全连通层提取输入图像的分层表示.紧接着就是softmax层,最后一层全连接层的输出可以被转化成一个概率分布pRmp \in R^m用于nn类的图像情感分类.其中,n=8n = 8表示8种类型.表示图片属于某种特定情感类别的可能性定义如下:pi=exp(hi)iexp(hi),i=1,...,n.(1)p_i = \frac{exp(h_i)}{\sum_{i}exp(h_i)},i=1,...,n. (1).其中hih_i表示最后一层全连接层的输出.所预测概率分布的损失函数e可以用交叉熵来表示L=iyilog(pi).(2)L=-\sum_{i}y_{i}log(p_i). (2).其中y={yiyi{0,1},i=1,...,n,i=1npi=1}y = \{y_i|y_i \in \{0,1\},i=1,...,n,\sum_{i=1}^{n}p_i = 1\}表示的是图像情感的真实标签.
在这里插入图片描述
AlexNet基于大规模数据集上对图像进行分类.它包含了5个卷积层,每层后都接一个最大池化层,再随后跟着3个全连接层,分别有4096,4096,8个神经元.AlexNet的结构如图4(a)所示.AlexNet主要用于在语义层对图像进行分类,而且该网络倾向于提取有关图像语义的高层次深度表征.但它并不能有效地从抽象画中提取信息,因为抽象画的情感主要由中层的意像美学和低层次的视觉特征来传达的.正如在第一部分中所讨论的那样,AlexNet所携带的信息不足以用于图像情感分类任务.

B.对于各种不同的CNN模型的分析.

与情感有关的图像特征大致可以被划分为低层次特征(颜色,线条和纹理),中层次特征(意像美学)和高层次特征(图像语义)这三类.因为CNN模型包含多层过滤器,经历过CNN模型的多层过滤器得到的图像表征的层次是很高的.这就意味着如果CNN结构包含更多的卷积层,那么从CNN结构中提取到的特征的层次就会更高.为了提取有关中层次的意像美学和低层次的视觉特征,受AlexNet的启发,多种不同的包含更少的卷积层数的CNN模型得到了发展.

意像美学与图像情感有着紧密的联系.A-CNN模型被提出用于更有效的处理中层次的意像美学特征.如图4(b)所示,A-CNN模型包含4个卷积层和3个全连接层,这其中分别包含1000,256和8个神经元.在第1,2卷积层之后都跟随有最大池化层.即使它与AlexNet网络相比有更少的卷积层,但在图像美学分析方面反而表现的更为出色.图像的纹理已经被证实是与图像情感分类息息相关的低层次视觉特征中的重要一种.为了提取图像纹理的深度表征,一种有效的CNN模型—T-CNN被提出来了.如图4©所示,T-CNN模型移除了AlexNet卷积e的后三层,并且在第二层c卷积层后面加入了一层"能量"层(核大小为27的平均池化层)."能量层"之后仍然是3层神经元数量分别为4096,4096,8的全连接层.

从之前提到的CNN模型中,我们可以发现CNN的模型都是相似的,主要的差异就是CNN层的数量.这意味着我们可以使那些提取不同层次深度表征的CNN模型共享一些参数.基于这个发现,我们将不同的CNN模型统一进一个CNN结构中去,这样不仅提高了情感分类效果的准确性,同时也获得了较好的参数效率.

C.深度网络学习多层次深度表征.

为了有效地将不同层次的深度表征统一到一个CNN模型中去,我们提出了一种多层次深度表征神经网络(MldrNet),这种网络包含了一个主要的网络和4个分支.我们MldrNet模型的不同卷积层可以从全局和局部视图中提取到不同层次的深度表征.如图4所示,我们的MldrNet模型包含4个卷积层,其大小分别为1111,55,55和55.每个卷积层后面都有2个全连接层.我们的MldrNet模型中的一个问题是每层卷积的输出维度是不一样的,受GoogleNet的启发,对于MldrNetd的每一层,我们都在池化层和全连接层之间插入了一个带有128个过滤器的11卷积层.11的卷积层统一了输出层的维度,并且调整了线性激活.

与MldrNet提取到的高层次图像语义信息相比,低层提取到的深度表征提供了额外的信息,比如颜色,纹理,构成和视觉平衡等等,这恰恰与图像的情感有关.现有的有关图像情感分析的研究表明,这些额外的如低层次和中层次图像特征信息将会使得图像的情感分类效果得到显著提升.
在这里插入图片描述
我们在设计MldrNet的时候,需要考虑两个问题.第一,我们需要确定网络中合适的层数.正如我们之前提到过的,单纯的增加网络的层数未必能够提高图像情感分类的效果.如果层数太深的话,参数的数量将会极大的增加,因为每层都需要有它自己的权重,而这些层对于情感分类的作用就变得微乎其微了.然而,如果层数变得很浅,那么提取到的深度表征或许就无法有效地表达图像的情感.为了说明网络中从每层提取到的深度表征的差异,我们将每层过滤器的权重做了可视化,生成了一张激活图,如图5所示.很显然,从第1层和第2层提取到的深度表征与低层次特征有关,第三层的深度表征则反映了图像美学这类抽象概念.在更高层中,深度表征则主要表示图像中的一些具体物体,如人脸和马.我们也在4-B部分进行了一些实验来研究MldrNet模型在图像情感分类时受网络层数的影响.

其次,从MldrNet的不同层中提取的深层表征在唤起情感方面的发挥的作用,对于不同类型的图像可能会有所不同。为了有效的结合不同层的深度表征,我们需要认真的挑选合适的融合函数.我们在MldrNet中引入了最常见的融合函数,包括连接,min,max和mean.关于融合函数的细节讨论在3-D部分会被提到.

D.融合层

融合层是我们网络的核心部件,它由一系列的融合函数组成.因为一些图像信息在通过卷积层的时候会消失,所以一些现存的网络,如ResNet和DenseNet将不同卷积层的信息组合起来以提高模型能力.然而,它们只是简单地通过跃层连接连接多层特征,这意味着从不同卷积层提取的信息具有相同的权重.在图像情感分析中,不同层特征在引起情感时有不同的影响.为了选择适用于情感分类的融合函数,我们在融合层中用不同的融合函数来融合不同层次的深度表征.我们定义从第i层q提取到的深度表征为hih_i,融合函数为f(x)f(x).这样整张图片的表征就可以得到融合了h=f(h1,h2,...,hi)h = f(h_1,h_2,...,h_i).

概率分布pip_i和损失函数LL可以被表示为pi=exp(h)iexp(h)andL=iyilog(pi)p_i = \frac{exp(h)}{\sum_{i}exp(h)} and L = -\sum_{i}y_{i}log(p_i).

在我们的实验中,我们有容融合函数f(x)=min,max,meanf(x)=min,max,mean.我们很轻易的发现函数meang给予每层卷积提取到的提取到的深度表征以q相同的权重,而函数min和max则会增大其中某一层的权重.在我们的方法中如何去选择融合函数是至关重要的.利用不同融合函数的比较结果见第四节.

4.实验

在这一节中,我们评估了MldrNet模型在不同数据集上的表现.最近公开的情感认知方面的大规模数据集和3种流行使用的小数据集:IAPS-Subset,ArtPhoto,Abstract用于评估在8种情感类别中的分类效果.MART数据集被用于评估在抽象画上的2种类别(积极和消极)的分类效果.

A.实验设定

1)实现细节

我们在2块Nvidia GTX1080上采用pyTorch框架来实现我们的模型.模型的参数细节详见图3,其中输入图片大小是375*375.训练集批次大小为64.优化方法采用随机梯度下降(SGD).最初的学习率根据经验设置为0.001,冲量设置为0.9,权重衰变为0.0005.这些优化器中的参数是通过使用默认设置初始化的.

2)数据集

用于图像情感分类的大规模数据集.该数据集最早被公开于文献[19]中,用于评估在8分类中的分类效果.为了收集这些数据,我们首先从Instagram和Flickr上下载了9万张贴有噪点标签的图片,这些图片使用情感分类的名称作为关键词进行搜索。然后将下载的图像提交给AMT进行进一步标记。最终,我们收集了23308张被标记好的图片用于情感认知.

用于情感分类的小规模数据集.下面介绍三个在以往的图像情感分类工作中广泛使用的小数据集。

(1)IAPS-Subset:IAPS是一种标准的刺激图像集,在情感图像分类中得到了广泛的应用。IAPS由1182张自然彩色图像组成,描绘了肖像、小狗、婴儿、动物、风景等复杂场景。在所有IAPS图像中,Mikels等人选取了395幅图像,将这些图像映射到上述8个离散的情感类别。
(2)ArtPhoto:在ArtPhoto数据集中,以情感类的名称作为搜索词,从一些艺术分享网站上选取806张照片。艺术家拍下照片并上传到网站上,决定照片的情感类别。艺术家试图通过对情感对象、灯光、色彩等的有意识操纵,为照片的观看者唤起某种情感。在这个数据集中,每幅图像都被分配到上述八种情感类别中的一种。
(3)Abstract:该数据集包含228幅抽象画。与IAPS-Subset和ArtPhoto数据集中的图像不同,抽象数据集中的图像通过整体的颜色和纹理来表现情感,而不是一些情感对象。在这个数据集中,每幅画都由14个不同的人投票决定其情感类别。投票最多的情感类别被选为该图像的情感类别。
MART:MART数据集是从特伦托和罗弗里托的现当代艺术博物馆收集的500幅抽象画。这些艺术品是由专业艺术家完成的,他们对色彩、线条、形状、纹理等艺术元素进行了理论研究,并反映了对其绘画研究的成果。采用文献[48]中提到的的相对得分法,根据抽象画所引发的情感类型,将抽象画标记为积极或消极。

3)比较方法

为了说明我们模型的有效性,我们把MldrNet模型和当前最为先进的情感分类模型以及最流行的CNN模型做对比.
如Machajdik[3],Zhao[4],Rao[5],AlexNet+SVM[19],AlexNet[13],VGGNet-19[49],ResNet-101[45].

为全面量化不同融合函数所发挥的作用以及寻找我们模型的最佳结构,我们比较了以下几种模型:MldrNet-concat,MldrNet-max,MldrNet-min,MldrNet-mean.

B.在大规模的带噪声标签的数据集上做情感分类.

23164份标注好的图片被随机分配到训练集(80%),测试集(15%)和验证集(5%)当中.同时,为了证明我们的方法在噪声标记数据集上的有效性,我们将提交给AMT中进行标记但来自不同情感类别的图像与标记好的图像训练集相组合,得到一个带噪声的训练集.噪声数据集中能够含有83664张图片.我们将标注好的数据集称为好集,将那些带有噪声标记的数据集称为噪声集.训练同时使用好集和噪声集.测试集用于测试我们的模型.

1)MldrNet模型层数的选择:我们的MldrNet模型可以通过增加和减少卷积层的数量,利用多层深度表征进行图像情感分类. 为了达到最好的分类效果,我们必须选择合适的卷积层数量.我进行了一些实验来探究卷积层数对于模型效果的影响.

在这里插入图片描述
如表1所示,改变卷积层的数量将会影响分类的准确度.少于4层的时候,层数越少,准确度越低.原因可能是卷积层数少了会导致相关的高层次信息缺失.其次,超过4层之后,层数的增加没有显著影响分类的准确率,这也暗示了这些层的贡献微乎其微.同时,卷积层数越多,需要处理的参数就越多,因此训练模型所需的时间将大幅上涨.基于这些原因,MldrNet采用4层卷积的效果最好.

2)融合层函数的选择:MldrNet网络的另外一个重要的选择就是融合层的选择.正如之前讨论过的,融合层也能影响分类的准确率.在处理不同训练集的时候,融合层起到举足轻重的作用.

在这里插入图片描述
在表2中,我们列出了MldrNet模型用各种不同的融合函数在好集和噪声集中进行训练的结果.我们注意到,与max,min相比,mean和concat更适合作为融和函数.尤其是在使用mean作为融和函数的时候,模型在不同的训练集上都表现良好.用mean和concat比用min和maxn能尽可能保留各层提取到的情感信息.用mean函数可以更有效地融和图像的情感信息.

3)与不同方法进行比较.

为了彰显MldrNet网络的有效性,我们与各种图像情感分类方法做了对比,包括利用手工特征的最先进的方法和目前流行的深度学习模型.所有的模型在训练时都使用好集,效果如图3所示.

从图3中可以看出如下几点.首先,深度表征优于手工特征.手工特征是基于特定领域的小规模数据集设计出来的,与深层表征相比不能很好地描述图像情感.我们还可以发现,那些使用了深层表征的网络,比如VGGNet-19和ResNet-101,它们的卷积层深度甚至比AlexNet的深度更深,然而分类性能却仅有细微的提高.仅包含4层卷积的MldrNet,因为包含了低层次和中层次的深度表征却能够显著的提升分类的准确率.

最后,在使用噪声集训练的时候,我们的模型仍然能具有较高的分类准确度.这意味着我们的模型可以直接利用网络图片,这使得我们的方法能够适应更多的应用,比如推荐系统,社交系统和私人推广.
在这里插入图片描述
为了进一步对MldrNet和AlexNet进行比较,我们列出了两种方法在两种不同测试集上分类效果的混乱矩阵.考虑到使用深度表征相比于使用人工特征带来的巨大性能提升,我们仅展示了在好集和噪声集作为训练集时的结果.如图6所示,不论是在那种数据集上,AlexNet的表现都不如MldrNet.AlexNet更倾向于融合一些情感,比如"担心"和"害怕".这表明仅靠高层次图像语义不能有效区分图像的情感.另外,与AlexNet相比,我们的MldrNet模型在不同的数据集上分类效果更稳定.
在这里插入图片描述
我们同样可视化了一组样本图片(这组图片在MldrNet上被正确分类,但在AlexNet中未被正确分类)来分析中层次和低层次的深度表征在进行图像分类时的影响.如图7所示,被AlexNet错误分类的情感主要是由中层次和低层次的视觉表征(如颜色,情感和意像美学)传达的.结合中低层次的深度表征可以有效提高情感分类的准确度.

C.在小规模数据集上做图像情感分类.

我们介绍了几种使用手工制作特征的图像情感分析方法.为了更好地评估MldrNet的有效性,我们将我们的方法与最先进的方法AlexNet进行了比较.

由于每个情感类别的图像数量不均衡、数量有限,我们采用"one against all"的策略来训练分类器.将每个类别的图像样本随机分为5批,采用5倍交叉验证策略对不同方法进行评价.我们使用图像来训练MldrNet模型和AlexNet模型中的最后一个全连接层.计算每一组的准确率来比较结果.注意在IAPS-Subset 和 Abstract数据集中,愤怒类情感仅包含8张图片和3张图片,无法对该类别进行5倍交叉验证.因此略去这报表中略去这两类情感.
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
图8、图9和图10分别给出了每种情绪类型的情绪分类准确率.在大多数情绪分类中,深度学习方法明显优于最先进的手工特征方法.然而,AlexNet模型在Abstract和ArtPhoto数据集中的表现相对较差,这可能是因为这两个数据集中图像的情感主要通过中低层次的视觉特征来传达的.与此相反,MldrNet模型在这三个数据集的几乎所有情感类别中都取得了最好的性能,非常的稳健.

在这里插入图片描述

D.抽象画上的情感分类.

在这里插入图片描述
进一步评估MldrNet.我们还在包含抽象绘画的MART数据集上测试了MldrNet模型.我们在MART数据集上使用10倍交叉验证来比较我们的MldrNet模型与的其他6种基线方法。基线方法有:核转导SVM (TSVM)、线性矩阵补全(LMC)、Lasso、Group Lasso、非线性矩阵补全(NLMC)和AlexNet.表4的结果表明,与其他方法相比,我们的MldrNet能够有效地从抽象画中提取情感信息.与传统的CNN模型相比,MldrNet模型尤其擅长处理与低层和中层视觉特征相关的图像情感.

5.总结

本文提出了一种新的学习图像情感分类深度表征网络.我们已经证明,图像情感不仅受到高层次图像语义的影响,而且还受到相关的中、低层次视觉特征的影响.我们的网络成功结合了从不同卷积层中提取到的深度表征来用于图像情感分类.在我们的实验中,对于不同类型的图像情感数据集,MldrNet与流行的CNN模型相比,在卷积层较少的情况下,实现了图像情感分类准确率上的一致性提高.此外,MldNet在使用不同的训练数据集时,特别是直接从Internet上收集的噪声数据集时,表现出更强的健壮性.这将减少对可靠的训练数据的需求,有助于我们利用更多海量的图像数据.与线性深度卷积神经网络模型相比,我们认为MldrNet模型结合从不同卷积层提取的深度表征更适合处理抽象层次的计算机视觉任务.在未来,我们将扩展MldrNet在计算机视觉任务方面的应用.同时我们还计划探索不同视觉任务下的图像情感规律.

6.参考文献

[1] P. J. Lang, “A bio-informational theory of emotional imagery,” Psy- chophysiology, vol. 16, no. 6, pp. 495–512, 1979.
[2] D.Joshi,R.Datta,E.Fedorovskaya,Q.-T.Luong,J.Z.Wang,J.Li,and J. Luo, “Aesthetics and emotions in images,” IEEE Signal Processing Magazine, vol. 28, no. 5, pp. 94–115, 2011.
[3] J. Machajdik and A. Hanbury, “Affective image classification using features inspired by psychology and art theory,” in ACM MM, pp. 83–92, 2010.
[4] S. Zhao, Y. Gao, X. Jiang, H. Yao, T.-S. Chua, and X. Sun, “Exploring principles-of-art features for image emotion recognition,” in ACM MM, 2014.
[5] T. Rao, M. Xu, H. Liu, J. Wang, and I. Burnett, “Multi-scale blocks based image emotion classification using multiple instance learning,” in ICIP, 2016.
[6] S. Zhao, H. Yao, Y. Gao, R. Ji, and G. Ding, “Continuous probability distribution prediction of image emotions via multi-task shared sparse regression,” IEEE Transactions on Multimedia, vol. 19, no. 3, pp. 632– 645, 2017.
[7] W. Wei-ning, Y. Ying-lin, and Z. Jian-chao, “Image emotional classifi- cation: static vs. dynamic,” in SMC, 2004.
[8] H.-B. Kang, “Affective content detection using hmms,” in ACM MM, 2003.
[9] W.WangandQ.He,“Asurveyonemotionalsemanticimageretrieval.,” in ICIP, 2008.
[10] J. Aronoff, “How we recognize angry and happy emotion in people, places, and things,” Cross-cultural research, vol. 40, no. 1, pp. 83–105, 2006.
[11] A. Hanjalic, “Extracting moods from pictures and sounds: Towards truly personalized tv,” IEEE Signal Processing Magazine, vol. 23, no. 2, pp. 90–100, 2006.
[12] J. Itten and E. Van Haagen, The Art of Color; the Subjective Experience and Objective Rationale of Colour. Reinhold, 1962.
JOURNAL OF LATEX CLASS FILES, VOL. 13, NO. 9, SEPTEMBER 2014 10
[13] A. Krizhevsky, I. Sutskever, and G. E. Hinton, “Imagenet classification with deep convolutional neural networks,” in NIPS, 2012.
[14] J. Long, E. Shelhamer, and T. Darrell, “Fully convolutional networks for semantic segmentation,” in CVPR, 2015.
[15] S. Ren, K. He, R. Girshick, and J. Sun, “Faster r-cnn: Towards real-time object detection with region proposal networks,” in NIPS, 2015.
[16] B. Zhou, A. Lapedriza, J. Xiao, A. Torralba, and A. Oliva, “Learning deep features for scene recognition using places database,” in NIPS, 2014.
[17] X. Alameda-Pineda, E. Ricci, Y. Yan, and N. Sebe, “Recognizing emotions from abstract paintings using non-linear matrix completion,” in CVPR, 2016.
[18] J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, and L. Fei-Fei, “Imagenet: A large-scale hierarchical image database,” in CVPR, 2009.
[19] Q. You, J. Luo, H. Jin, and J. Yang, “Building a large scale dataset for image emotion recognition: The fine print and the benchmark,” in AAAI, 2016.
[20] C. Hu, Z. Xu, Y. Liu, L. Mei, L. Chen, and X. Luo, “Semantic link network-based model for organizing multimedia big data,” IEEE Transactions on Emerging Topics in Computing, vol. 2, no. 3, pp. 376– 387, 2014.
[21] Z. Cui, X. Shi, and Y. Chen, “Sentiment analysis via integrating distributed representations of variable-length word sequence,” Neuro- computing, vol. 187, pp. 126–132, 2016.
[22] S. E. Shepstone, Z.-H. Tan, and S. H. Jensen, “Using audio-derived affective offset to enhance tv recommendation,” IEEE Transactions on Multimedia, vol. 16, no. 7, pp. 1999–2010, 2014.
[23] S.Poria,E.Cambria,N.Howard,G.-B.Huang,andA.Hussain,“Fusing audio, visual and textual clues for sentiment analysis from multimodal content,” Neurocomputing, vol. 174, pp. 50–59, 2016.
[24] A. Hanjalic and L.-Q. Xu, “Affective video content representation and modeling,” IEEE Transactions on Multimedia, vol. 7, no. 1, pp. 143– 154, 2005.
[25] M. Soleymani, M. Larson, T. Pun, and A. Hanjalic, “Corpus develop- ment for affective video indexing,” IEEE Transactions on Multimedia, vol. 16, no. 4, pp. 1075–1089, 2014.
[26] K. Yadati, H. Katti, and M. Kankanhalli, “Cavva: Computational af- fective video-in-video advertising,” IEEE Transactions on Multimedia, vol. 16, no. 1, pp. 15–23, 2014.
[27] X. Sun, C. Li, and F. Ren, “Sentiment analysis for chinese microblog based on deep neural networks with convolutional extension features,” Neurocomputing, vol. 210, pp. 227–236, 2016.
[28] M. Xu, J. S. Jin, S. Luo, and L. Duan, “Hierarchical movie affective content analysis based on arousal and valence features,” in ACM MM, 2008.
[29] S. Benini, L. Canini, and R. Leonardi, “A connotative space for supporting movie affective recommendation,” IEEE Transactions on Multimedia, vol. 13, no. 6, pp. 1356–1370, 2011.
[30] J. Tarvainen, M. Sjoberg, S. Westman, J. Laaksonen, and P. Oittinen, “Content-based prediction of movie style, aesthetics, and affect: Data set and baseline experiments,” IEEE Transactions on Multimedia, vol. 16, no. 8, pp. 2085–2098, 2014.
[31] J. Tang, Y. Zhang, J. Sun, J. Rao, W. Yu, Y. Chen, and A. C. M. Fong, “Quantitative study of individual emotional states in social networks,” IEEE Transactions on Affective Computing, vol. 3, no. 2, pp. 132–144, 2012.
[32] K.-C.Peng,T.Chen,A.Sadovnik,andA.C.Gallagher,“Amixedbagof emotions: Model, predict, and transfer emotion distributions,” in CVPR, 2015.
[33] J. A. Mikels, B. L. Fredrickson, G. R. Larkin, C. M. Lindberg, S. J. Maglio, and P. A. Reuter-Lorenz, “Emotional category data on images from the international affective picture system,” Behavior research methods, vol. 37, no. 4, pp. 626–630, 2005.
[34] D.Borth,R.Ji,T.Chen,T.Breuel,andS.-F.Chang,“Large-scalevisual sentiment ontology and detectors using adjective noun pairs,” in ACM MM, 2013.
[35] S.Zhao,H.Yao,Y.Gao,G.Ding,andT.-S.Chua,“Predictingpersonal- ized image emotion perceptions in social networks,” IEEE Transactions on Affective Computing, 2016.
[36] V. Yanulevskaya, J. Van Gemert, K. Roth, A.-K. Herbold, N. Sebe, and J.-M. Geusebroek, “Emotional valence categorization using holistic image features,” in ICIP, 2008.
[37] M. Solli and R. Lenz, “Color based bags-of-emotions,” in CAIP, 2009.
[38] X. Lu, P. Suryanarayan, R. B. Adams Jr, J. Li, M. G. Newman, and J. Z. Wang, “On shape and the computability of emotions,” in ACM
[39] T. Chen, F. X. Yu, J. Chen, Y. Cui, Y.-Y. Chen, and S.-F. Chang, “Object- based visual sentiment concept analysis and application,” in ACM MM, 2014.
[40] M. Tkalcic, A. Odic, A. Kosir, and J. Tasic, “Affective labeling in a content-based recommender system for images,” IEEE transactions on Multimedia, vol. 15, no. 2, pp. 391–400, 2013.
[41] M. D. Zeiler and R. Fergus, “Visualizing and understanding convolu- tional networks,” in ECCV, 2014.
[42] X. Lu, Z. Lin, H. Jin, J. Yang, and J. Z. Wang, “Rapid: rating pictorial aesthetics using deep learning,” in ACM MM, 2014.
[43] V. Andrearczyk and P. F. Whelan, “Using filter banks in convolutional neural networks for texture classification,” Pattern Recognition Letters, vol. 84, pp. 63–69, 2016.
[44] C.Szegedy,W.Liu,Y.Jia,P.Sermanet,S.Reed,D.Anguelov,D.Erhan, V. Vanhoucke, and A. Rabinovich, “Going deeper with convolutions,” in CVPR, 2015.
[45] K. He, X. Zhang, S. Ren, and J. Sun, “Deep residual learning for image recognition,” in CVPR, pp. 770–778, 2016.
[46] V. Yanulevskaya, J. Uijlings, E. Bruni, A. Sartori, E. Zamboni, F. Bacci, D. Melcher, and N. Sebe, “In the eye of the beholder: employing statistical analysis and eye tracking for analyzing abstract paintings,” in ACM MM, 2012.
[47] P. J. Lang, M. M. Bradley, and B. N. Cuthbert, “International affective picture system (iaps): Affective ratings of pictures and instruction manual,” Technical report A-8, 2008.
[48] A. Sartori, D. Culibrk, Y. Yan, and N. Sebe, “Who’s afraid of itten: Using the art theory of color combination to analyze emotions in abstract paintings,” in ACM MM, 2015.
[49] K. Simonyan and A. Zisserman, “Very deep convolutional networks for large-scale image recognition,” CoRR, vol. abs/1409.1556, 2014.
[50] T.Joachims,“Transductiveinferencefortextclassificationusingsupport
vector machines,” in ICML, 1999.
[51] C.-H. Chen, V. M. Patel, and R. Chellappa, “Matrix completion for
resolving label ambiguity,” in CVPR, 2015.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章