文章翻譯:Learning Multi-level Deep Representation for Image Emotion Classification,深入理解卷積層

標題:Learning Multi-level Deep Representations for Image Emotion Classification
作者:Tianrong Rao, Student Member, IEEE, Min Xu, Member, IEEE, Dong Xu, Senior Member , IEEE,
翻譯:蔡少斐


基於學習多層次深度表徵的圖像情感分類

摘要

在這篇文章中,我們提出了一種新的基於學習多層次深度表徵的深度網絡用於解決圖像的情感分類問題。圖像的情感的感知可以通過利用圖像全局和局部的圖像語義、意像美學和低層次視覺特徵來完成。現存的圖像情感分類方法大多利用人工構造的特徵或者是深層特徵,主要集中在低層次的視覺特徵或是語義層次的視覺表徵而不是把所有的因素都考慮在內。而MldrNet網絡結合了不同層次的深度表徵,例如圖像語義,意像美學,和低層次的視覺特徵來有效的區分不同種類圖像(如抽象畫、互聯網圖片)的情感類型。廣泛的實驗表明,無論是在互聯網圖片還是抽象畫上,本文提出的方法都優於使用手工特徵和深層特徵的當前最爲先進的方法。就整體的分類精度而言,文中提出的方法的方法比當前最爲先進的方法性能提升了至少6%.

1.簡介

心理學研究早已揭示了人類的情感會隨着不同的視覺刺激(例如圖像和視頻)而改變.受這些研究的啓發,計算機科學家們開始預測在給定的一系列視覺內容下人類的情感反應.這樣的研究課題被稱爲"圖像情感分類",該課題在近些年來吸引了越來越多的關注.然而對比語義層的圖像分析,由於情感的複雜性和獨立性,在情感層對圖像進行分析顯得更加困難.
在這裏插入圖片描述
如圖1所示,圖像的情感與一些複雜的視覺特徵息息相關,而這些特徵又遍佈圖像全局和局部視圖的低層次到高層次之中.來自局部視圖的低層次視覺特徵例如顏色,形狀和紋理最先被用來用於圖像的情感分類.Joshi等人認爲圖像的情感與藝術作品的意像美學有着高度的聯繫.基於他們的研究,我們可以運用構成、視覺平衡、強調等表現意像美學的中層特徵對圖像情感進行分類.Machajdik和Hanbury認爲圖像的語義內容能夠有效地影響圖像的情感.他們聯合運用了全局視圖的高層次圖像語義和Itten的色彩關聯的藝術理論來感知圖像的情感.然而大多數現存的方法都依賴於手工構建特徵,這些特徵是基於人類普遍感覺和觀察手工構建的.而這種方法很難將與圖像情感有關的所有重要的因素(例如圖像語義,意像美學和低層次的視覺特徵等等)全部考慮在內.
在這裏插入圖片描述
近來,隨着卷積神經網絡大受歡迎,視覺認知任務取得很多重大突破(例如圖像分類,圖像分割,物體檢測和場景識別).CNN提供了一種端對端的特徵學習框架,它可以自動的從全局視圖中學到圖像的深層表徵,而非手動構造圖像特徵.很多研究人員也把CNN用於圖像的情感分類.然而,從圖2我們可以看出,當前使用CNN的方法中,例如AlexNet,對於視覺識別來說,無法較好的處理中層次的意像美學和來源於局部視圖的低層次圖像特徵.在參考文獻[17]中,作者認爲AlexNet不能足夠有效的從抽象畫中提取情感信息,而抽象畫的情感則主要由中層次的意像美學和低層次的視覺特徵表示.

另外,基於CNN的方法通常需要依賴於大規模手工構造的訓練集.擁有不同文化背景的的人對於一張特定的圖片可能有着非常不同的情感反應.因此,與互聯網圖片有關的情感文本語境(例如標題,標籤和描述)可能並不足夠可靠,而且還會致使從網絡上搜集而來的用於情感分類的數據集可能會包含噪聲和不準確的情感標籤.現存的一些用於圖像情感分類的方法,如AlexNet,在使用到那些帶噪聲標籤的數據作爲訓練集的時候,可能會發生退化.
在這裏插入圖片描述
考慮到上面提到的兩種挑戰,在這篇文章中我們提出了一種新的可以從全局和局部視圖中學習到多層次的深度表徵的深度網絡(MldrNet)用於解決圖像的情感分類問題.圖3是MldrNet網絡的一個概述圖.傳統的CNN方法被設計用來對處於中心位置的物體進行分類,這樣不能有效的提取中層次的意像美學和來自局部視圖的低層次的視覺特徵.爲了對整個整個圖像的不同層次的深度表徵進行端到端的學習,我們提出了一種帶分支的CNN模型來提取不同層次的深度表徵.通過一個融合層,不同層次的深度表徵被整合到一起用於執行分類任務.我們注意到,當使用帶有噪聲標籤的數據作爲訓練數據的時候,不同的融合方法將嚴重影響到分類結果.爲了展示我們MldrNet網絡的效果和探索不同融合方法的影響,我們在很多公開可用的數據集(例如網絡圖片和抽象畫)上做了大量的實驗.

我們文章主要的貢獻在於我們提出了一種基於CNN的結合了多種不同層次深度表徵(例如那些來自全局和局部視圖中的圖像語義,意像美學,和低層次的視覺特徵)的方法.通過結合這些不同層次的深度表徵,我們的方法可以有效的從圖像中提取到情感信息.實驗結果表明,我們的方法優於使用手工特徵和深層特徵的當前最爲先進的方法.

需要提醒的一點是,我們的文章是按照下面的方式組織起來的.在第二部分,我們將會重溫與圖像情感分類的相關網絡模型.我們提出的用於圖像情感分類的多層深度表徵的網絡會在第三部中介紹.在第四部分中,我們通過大量的實驗呢來說明,我們的網絡模型在跟現存已有的網絡相比,不僅有效的提高了情感分類的效率,同時也在處理噪聲標籤時顯得各更爲有效.最後,我們在第五部分總結了我們網絡的未來研究方向.

2.相關網絡

這幾年情感內容分析在多媒體領域已經得到了廣泛的研究,包括文本,音頻,視頻和圖像.對於視覺情感分類,現存的研究大約被分成兩種方法:DES(dimensional emotion space)和CES(categorical emotion states).DES模型利用3維valence-arousal-control情感空間,3維natural-temporal-energetic隱含空間,3維activity-weight-heat情感因子,以及2維valence-arousal情感空間來爲情感提供可預測的和靈活的描述.在CES模型中,計算結果被直接映射到幾種基本類別(如憤怒,激動,悲傷等等)中的一種.與DES模型相比,CES模型更容易被人們理解和標註,因此在最近的研究中,這種方法得到了廣泛的應用.爲了把我們的成果與現有的成果做比較,我們採用CES模型將情緒分爲8種類別,而這8種類別的情緒在嚴格的心理學研究中已經被預定義過了.

用於圖像情感分類的視覺特徵是從不同層次被設計和提取的.Yanulevskaya等人首次提出根據低層次特徵(包含Gabor特徵和Wiccest特徵)對藝術品進行情感分類的方法.Solli 和 Lenz引入了一種基於顏色情感相關的圖像描述符,這種源於心理物理學的實驗的描述符在圖像分類任務中得到了應用.參考文獻[38]中討論了形狀特徵對圖像情感分類的影響.參考文獻[5]中,從全局和局部視圖中被提取到的SIFT特徵被用於圖像的情感預測.基於藝術和心理學理論,Machajdik等人定義了一種是由用豐富的手工設計而成的中層次特徵構成的組合(包括構成,色差和紋理).趙等人在文[4]中引入了更多健壯的,穩定的中層次視覺特徵,這些特徵根據藝術原則來提取有關圖像情感的信息.近年來,文[34]、[39]在視覺情感分析中引入了與對象檢測相關的高級形容詞名詞對。Tkalcic等人在文獻[40]中指出了面部表情對圖像的情感影響,並且得到了基於高層次語義內容的圖像情感標籤.然而那些手工設計的視覺特徵已經被證明只在一些小數據集上有效,這些數據集中的圖像都是從一小部分特定領域(例如抽象畫和肖像畫)中選出來的.這限制了圖像情感分類在大規模圖像集中的應用.

考慮近期基於CNN的方法在許多計算機視覺任務(如圖像分類,圖像分割,物體檢測和場景識別)上的大獲成功,基於CNN的方法同樣也被引入到了圖像情感分析中.Peng等人在t文獻呢[13]中率先嚐試應用CNN模型.他們整合了在ImageNet上預訓練過的卷積神經網絡,並且說明了CNN模型在Emotion6數據及上的表現優於之前那些依賴不同層次手工設計的特徵.You等人結合了CNN模型和SVM模型來在大規模網絡圖片的數據集下檢測圖像的情感.這些工作通常藉助流行的CNN模型來完成,CNN模型也經常被用於圖像情感分類中圖像分類和物體檢測任務.然而廣泛的應用CNN模型不能有效的對圖像進行分類,因爲圖像的情感主要由低層次和中層次的特徵引發,如抽象畫和藝術照.因此,在本文中,我們提出一種新的能夠專門用於處理圖像情感的CNN模型.

3. 提出的方法

在本部分中,我們引入了一種學習了多層深度表徵(MldrNet)的方法來用於圖像的情感分類.考慮到圖像的情感與不同層級的特徵(如高層圖像語義,中層意像美學和低層視覺特徵)有關,我們的方法用一種CNN結構統一了不同層級的深度表徵.在此基礎上,我們提出了一種用於聚合圖像情感特徵的融合層.根據前面提到的發現,用於視覺情感分類的情感類別被劃分爲8類.(積極樂觀的情感有:愉悅,敬畏,滿足和興奮;消極悲觀的情感有:憤怒,厭惡,擔心和悲傷.)

A.卷積神經網絡.

在引入我們MldrNet模型之前,讓我們先來重溫一下已經在計算機視覺領域得到廣泛應用的CNN模型.給出一個訓練樣本{(x,y)}\{(x,y)\},其中xx是一張圖像,yy是與之相關聯的標籤,CNN利用卷積層和全連通層提取輸入圖像的分層表示.緊接着就是softmax層,最後一層全連接層的輸出可以被轉化成一個概率分佈pRmp \in R^m用於nn類的圖像情感分類.其中,n=8n = 8表示8種類型.表示圖片屬於某種特定情感類別的可能性定義如下:pi=exp(hi)iexp(hi),i=1,...,n.(1)p_i = \frac{exp(h_i)}{\sum_{i}exp(h_i)},i=1,...,n. (1).其中hih_i表示最後一層全連接層的輸出.所預測概率分佈的損失函數e可以用交叉熵來表示L=iyilog(pi).(2)L=-\sum_{i}y_{i}log(p_i). (2).其中y={yiyi{0,1},i=1,...,n,i=1npi=1}y = \{y_i|y_i \in \{0,1\},i=1,...,n,\sum_{i=1}^{n}p_i = 1\}表示的是圖像情感的真實標籤.
在這裏插入圖片描述
AlexNet基於大規模數據集上對圖像進行分類.它包含了5個卷積層,每層後都接一個最大池化層,再隨後跟着3個全連接層,分別有4096,4096,8個神經元.AlexNet的結構如圖4(a)所示.AlexNet主要用於在語義層對圖像進行分類,而且該網絡傾向於提取有關圖像語義的高層次深度表徵.但它並不能有效地從抽象畫中提取信息,因爲抽象畫的情感主要由中層的意像美學和低層次的視覺特徵來傳達的.正如在第一部分中所討論的那樣,AlexNet所攜帶的信息不足以用於圖像情感分類任務.

B.對於各種不同的CNN模型的分析.

與情感有關的圖像特徵大致可以被劃分爲低層次特徵(顏色,線條和紋理),中層次特徵(意像美學)和高層次特徵(圖像語義)這三類.因爲CNN模型包含多層過濾器,經歷過CNN模型的多層過濾器得到的圖像表徵的層次是很高的.這就意味着如果CNN結構包含更多的卷積層,那麼從CNN結構中提取到的特徵的層次就會更高.爲了提取有關中層次的意像美學和低層次的視覺特徵,受AlexNet的啓發,多種不同的包含更少的卷積層數的CNN模型得到了發展.

意像美學與圖像情感有着緊密的聯繫.A-CNN模型被提出用於更有效的處理中層次的意像美學特徵.如圖4(b)所示,A-CNN模型包含4個卷積層和3個全連接層,這其中分別包含1000,256和8個神經元.在第1,2卷積層之後都跟隨有最大池化層.即使它與AlexNet網絡相比有更少的卷積層,但在圖像美學分析方面反而表現的更爲出色.圖像的紋理已經被證實是與圖像情感分類息息相關的低層次視覺特徵中的重要一種.爲了提取圖像紋理的深度表徵,一種有效的CNN模型—T-CNN被提出來了.如圖4©所示,T-CNN模型移除了AlexNet卷積e的後三層,並且在第二層c卷積層後面加入了一層"能量"層(核大小爲27的平均池化層)."能量層"之後仍然是3層神經元數量分別爲4096,4096,8的全連接層.

從之前提到的CNN模型中,我們可以發現CNN的模型都是相似的,主要的差異就是CNN層的數量.這意味着我們可以使那些提取不同層次深度表徵的CNN模型共享一些參數.基於這個發現,我們將不同的CNN模型統一進一個CNN結構中去,這樣不僅提高了情感分類效果的準確性,同時也獲得了較好的參數效率.

C.深度網絡學習多層次深度表徵.

爲了有效地將不同層次的深度表徵統一到一個CNN模型中去,我們提出了一種多層次深度表徵神經網絡(MldrNet),這種網絡包含了一個主要的網絡和4個分支.我們MldrNet模型的不同卷積層可以從全局和局部視圖中提取到不同層次的深度表徵.如圖4所示,我們的MldrNet模型包含4個卷積層,其大小分別爲1111,55,55和55.每個卷積層後面都有2個全連接層.我們的MldrNet模型中的一個問題是每層卷積的輸出維度是不一樣的,受GoogleNet的啓發,對於MldrNetd的每一層,我們都在池化層和全連接層之間插入了一個帶有128個過濾器的11卷積層.11的卷積層統一了輸出層的維度,並且調整了線性激活.

與MldrNet提取到的高層次圖像語義信息相比,低層提取到的深度表徵提供了額外的信息,比如顏色,紋理,構成和視覺平衡等等,這恰恰與圖像的情感有關.現有的有關圖像情感分析的研究表明,這些額外的如低層次和中層次圖像特徵信息將會使得圖像的情感分類效果得到顯著提升.
在這裏插入圖片描述
我們在設計MldrNet的時候,需要考慮兩個問題.第一,我們需要確定網絡中合適的層數.正如我們之前提到過的,單純的增加網絡的層數未必能夠提高圖像情感分類的效果.如果層數太深的話,參數的數量將會極大的增加,因爲每層都需要有它自己的權重,而這些層對於情感分類的作用就變得微乎其微了.然而,如果層數變得很淺,那麼提取到的深度表徵或許就無法有效地表達圖像的情感.爲了說明網絡中從每層提取到的深度表徵的差異,我們將每層過濾器的權重做了可視化,生成了一張激活圖,如圖5所示.很顯然,從第1層和第2層提取到的深度表徵與低層次特徵有關,第三層的深度表徵則反映了圖像美學這類抽象概念.在更高層中,深度表徵則主要表示圖像中的一些具體物體,如人臉和馬.我們也在4-B部分進行了一些實驗來研究MldrNet模型在圖像情感分類時受網絡層數的影響.

其次,從MldrNet的不同層中提取的深層表徵在喚起情感方面的發揮的作用,對於不同類型的圖像可能會有所不同。爲了有效的結合不同層的深度表徵,我們需要認真的挑選合適的融合函數.我們在MldrNet中引入了最常見的融合函數,包括連接,min,max和mean.關於融合函數的細節討論在3-D部分會被提到.

D.融合層

融合層是我們網絡的核心部件,它由一系列的融合函數組成.因爲一些圖像信息在通過卷積層的時候會消失,所以一些現存的網絡,如ResNet和DenseNet將不同卷積層的信息組合起來以提高模型能力.然而,它們只是簡單地通過躍層連接連接多層特徵,這意味着從不同卷積層提取的信息具有相同的權重.在圖像情感分析中,不同層特徵在引起情感時有不同的影響.爲了選擇適用於情感分類的融合函數,我們在融合層中用不同的融合函數來融合不同層次的深度表徵.我們定義從第i層q提取到的深度表徵爲hih_i,融合函數爲f(x)f(x).這樣整張圖片的表徵就可以得到融合了h=f(h1,h2,...,hi)h = f(h_1,h_2,...,h_i).

概率分佈pip_i和損失函數LL可以被表示爲pi=exp(h)iexp(h)andL=iyilog(pi)p_i = \frac{exp(h)}{\sum_{i}exp(h)} and L = -\sum_{i}y_{i}log(p_i).

在我們的實驗中,我們有容融合函數f(x)=min,max,meanf(x)=min,max,mean.我們很輕易的發現函數meang給予每層卷積提取到的提取到的深度表徵以q相同的權重,而函數min和max則會增大其中某一層的權重.在我們的方法中如何去選擇融合函數是至關重要的.利用不同融合函數的比較結果見第四節.

4.實驗

在這一節中,我們評估了MldrNet模型在不同數據集上的表現.最近公開的情感認知方面的大規模數據集和3種流行使用的小數據集:IAPS-Subset,ArtPhoto,Abstract用於評估在8種情感類別中的分類效果.MART數據集被用於評估在抽象畫上的2種類別(積極和消極)的分類效果.

A.實驗設定

1)實現細節

我們在2塊Nvidia GTX1080上採用pyTorch框架來實現我們的模型.模型的參數細節詳見圖3,其中輸入圖片大小是375*375.訓練集批次大小爲64.優化方法採用隨機梯度下降(SGD).最初的學習率根據經驗設置爲0.001,衝量設置爲0.9,權重衰變爲0.0005.這些優化器中的參數是通過使用默認設置初始化的.

2)數據集

用於圖像情感分類的大規模數據集.該數據集最早被公開於文獻[19]中,用於評估在8分類中的分類效果.爲了收集這些數據,我們首先從Instagram和Flickr上下載了9萬張貼有噪點標籤的圖片,這些圖片使用情感分類的名稱作爲關鍵詞進行搜索。然後將下載的圖像提交給AMT進行進一步標記。最終,我們收集了23308張被標記好的圖片用於情感認知.

用於情感分類的小規模數據集.下面介紹三個在以往的圖像情感分類工作中廣泛使用的小數據集。

(1)IAPS-Subset:IAPS是一種標準的刺激圖像集,在情感圖像分類中得到了廣泛的應用。IAPS由1182張自然彩色圖像組成,描繪了肖像、小狗、嬰兒、動物、風景等複雜場景。在所有IAPS圖像中,Mikels等人選取了395幅圖像,將這些圖像映射到上述8個離散的情感類別。
(2)ArtPhoto:在ArtPhoto數據集中,以情感類的名稱作爲搜索詞,從一些藝術分享網站上選取806張照片。藝術家拍下照片並上傳到網站上,決定照片的情感類別。藝術家試圖通過對情感對象、燈光、色彩等的有意識操縱,爲照片的觀看者喚起某種情感。在這個數據集中,每幅圖像都被分配到上述八種情感類別中的一種。
(3)Abstract:該數據集包含228幅抽象畫。與IAPS-Subset和ArtPhoto數據集中的圖像不同,抽象數據集中的圖像通過整體的顏色和紋理來表現情感,而不是一些情感對象。在這個數據集中,每幅畫都由14個不同的人投票決定其情感類別。投票最多的情感類別被選爲該圖像的情感類別。
MART:MART數據集是從特倫託和羅弗裏託的現當代藝術博物館收集的500幅抽象畫。這些藝術品是由專業藝術家完成的,他們對色彩、線條、形狀、紋理等藝術元素進行了理論研究,並反映了對其繪畫研究的成果。採用文獻[48]中提到的的相對得分法,根據抽象畫所引發的情感類型,將抽象畫標記爲積極或消極。

3)比較方法

爲了說明我們模型的有效性,我們把MldrNet模型和當前最爲先進的情感分類模型以及最流行的CNN模型做對比.
如Machajdik[3],Zhao[4],Rao[5],AlexNet+SVM[19],AlexNet[13],VGGNet-19[49],ResNet-101[45].

爲全面量化不同融合函數所發揮的作用以及尋找我們模型的最佳結構,我們比較了以下幾種模型:MldrNet-concat,MldrNet-max,MldrNet-min,MldrNet-mean.

B.在大規模的帶噪聲標籤的數據集上做情感分類.

23164份標註好的圖片被隨機分配到訓練集(80%),測試集(15%)和驗證集(5%)當中.同時,爲了證明我們的方法在噪聲標記數據集上的有效性,我們將提交給AMT中進行標記但來自不同情感類別的圖像與標記好的圖像訓練集相組合,得到一個帶噪聲的訓練集.噪聲數據集中能夠含有83664張圖片.我們將標註好的數據集稱爲好集,將那些帶有噪聲標記的數據集稱爲噪聲集.訓練同時使用好集和噪聲集.測試集用於測試我們的模型.

1)MldrNet模型層數的選擇:我們的MldrNet模型可以通過增加和減少卷積層的數量,利用多層深度表徵進行圖像情感分類. 爲了達到最好的分類效果,我們必須選擇合適的卷積層數量.我進行了一些實驗來探究卷積層數對於模型效果的影響.

在這裏插入圖片描述
如表1所示,改變卷積層的數量將會影響分類的準確度.少於4層的時候,層數越少,準確度越低.原因可能是卷積層數少了會導致相關的高層次信息缺失.其次,超過4層之後,層數的增加沒有顯著影響分類的準確率,這也暗示了這些層的貢獻微乎其微.同時,卷積層數越多,需要處理的參數就越多,因此訓練模型所需的時間將大幅上漲.基於這些原因,MldrNet採用4層卷積的效果最好.

2)融合層函數的選擇:MldrNet網絡的另外一個重要的選擇就是融合層的選擇.正如之前討論過的,融合層也能影響分類的準確率.在處理不同訓練集的時候,融合層起到舉足輕重的作用.

在這裏插入圖片描述
在表2中,我們列出了MldrNet模型用各種不同的融合函數在好集和噪聲集中進行訓練的結果.我們注意到,與max,min相比,mean和concat更適合作爲融和函數.尤其是在使用mean作爲融和函數的時候,模型在不同的訓練集上都表現良好.用mean和concat比用min和maxn能儘可能保留各層提取到的情感信息.用mean函數可以更有效地融和圖像的情感信息.

3)與不同方法進行比較.

爲了彰顯MldrNet網絡的有效性,我們與各種圖像情感分類方法做了對比,包括利用手工特徵的最先進的方法和目前流行的深度學習模型.所有的模型在訓練時都使用好集,效果如圖3所示.

從圖3中可以看出如下幾點.首先,深度表徵優於手工特徵.手工特徵是基於特定領域的小規模數據集設計出來的,與深層表徵相比不能很好地描述圖像情感.我們還可以發現,那些使用了深層表徵的網絡,比如VGGNet-19和ResNet-101,它們的卷積層深度甚至比AlexNet的深度更深,然而分類性能卻僅有細微的提高.僅包含4層卷積的MldrNet,因爲包含了低層次和中層次的深度表徵卻能夠顯著的提升分類的準確率.

最後,在使用噪聲集訓練的時候,我們的模型仍然能具有較高的分類準確度.這意味着我們的模型可以直接利用網絡圖片,這使得我們的方法能夠適應更多的應用,比如推薦系統,社交系統和私人推廣.
在這裏插入圖片描述
爲了進一步對MldrNet和AlexNet進行比較,我們列出了兩種方法在兩種不同測試集上分類效果的混亂矩陣.考慮到使用深度表徵相比於使用人工特徵帶來的巨大性能提升,我們僅展示了在好集和噪聲集作爲訓練集時的結果.如圖6所示,不論是在那種數據集上,AlexNet的表現都不如MldrNet.AlexNet更傾向於融合一些情感,比如"擔心"和"害怕".這表明僅靠高層次圖像語義不能有效區分圖像的情感.另外,與AlexNet相比,我們的MldrNet模型在不同的數據集上分類效果更穩定.
在這裏插入圖片描述
我們同樣可視化了一組樣本圖片(這組圖片在MldrNet上被正確分類,但在AlexNet中未被正確分類)來分析中層次和低層次的深度表徵在進行圖像分類時的影響.如圖7所示,被AlexNet錯誤分類的情感主要是由中層次和低層次的視覺表徵(如顏色,情感和意像美學)傳達的.結合中低層次的深度表徵可以有效提高情感分類的準確度.

C.在小規模數據集上做圖像情感分類.

我們介紹了幾種使用手工製作特徵的圖像情感分析方法.爲了更好地評估MldrNet的有效性,我們將我們的方法與最先進的方法AlexNet進行了比較.

由於每個情感類別的圖像數量不均衡、數量有限,我們採用"one against all"的策略來訓練分類器.將每個類別的圖像樣本隨機分爲5批,採用5倍交叉驗證策略對不同方法進行評價.我們使用圖像來訓練MldrNet模型和AlexNet模型中的最後一個全連接層.計算每一組的準確率來比較結果.注意在IAPS-Subset 和 Abstract數據集中,憤怒類情感僅包含8張圖片和3張圖片,無法對該類別進行5倍交叉驗證.因此略去這報表中略去這兩類情感.
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
圖8、圖9和圖10分別給出了每種情緒類型的情緒分類準確率.在大多數情緒分類中,深度學習方法明顯優於最先進的手工特徵方法.然而,AlexNet模型在Abstract和ArtPhoto數據集中的表現相對較差,這可能是因爲這兩個數據集中圖像的情感主要通過中低層次的視覺特徵來傳達的.與此相反,MldrNet模型在這三個數據集的幾乎所有情感類別中都取得了最好的性能,非常的穩健.

在這裏插入圖片描述

D.抽象畫上的情感分類.

在這裏插入圖片描述
進一步評估MldrNet.我們還在包含抽象繪畫的MART數據集上測試了MldrNet模型.我們在MART數據集上使用10倍交叉驗證來比較我們的MldrNet模型與的其他6種基線方法。基線方法有:核轉導SVM (TSVM)、線性矩陣補全(LMC)、Lasso、Group Lasso、非線性矩陣補全(NLMC)和AlexNet.表4的結果表明,與其他方法相比,我們的MldrNet能夠有效地從抽象畫中提取情感信息.與傳統的CNN模型相比,MldrNet模型尤其擅長處理與低層和中層視覺特徵相關的圖像情感.

5.總結

本文提出了一種新的學習圖像情感分類深度表徵網絡.我們已經證明,圖像情感不僅受到高層次圖像語義的影響,而且還受到相關的中、低層次視覺特徵的影響.我們的網絡成功結合了從不同卷積層中提取到的深度表徵來用於圖像情感分類.在我們的實驗中,對於不同類型的圖像情感數據集,MldrNet與流行的CNN模型相比,在卷積層較少的情況下,實現了圖像情感分類準確率上的一致性提高.此外,MldNet在使用不同的訓練數據集時,特別是直接從Internet上收集的噪聲數據集時,表現出更強的健壯性.這將減少對可靠的訓練數據的需求,有助於我們利用更多海量的圖像數據.與線性深度卷積神經網絡模型相比,我們認爲MldrNet模型結合從不同卷積層提取的深度表徵更適合處理抽象層次的計算機視覺任務.在未來,我們將擴展MldrNet在計算機視覺任務方面的應用.同時我們還計劃探索不同視覺任務下的圖像情感規律.

6.參考文獻

[1] P. J. Lang, “A bio-informational theory of emotional imagery,” Psy- chophysiology, vol. 16, no. 6, pp. 495–512, 1979.
[2] D.Joshi,R.Datta,E.Fedorovskaya,Q.-T.Luong,J.Z.Wang,J.Li,and J. Luo, “Aesthetics and emotions in images,” IEEE Signal Processing Magazine, vol. 28, no. 5, pp. 94–115, 2011.
[3] J. Machajdik and A. Hanbury, “Affective image classification using features inspired by psychology and art theory,” in ACM MM, pp. 83–92, 2010.
[4] S. Zhao, Y. Gao, X. Jiang, H. Yao, T.-S. Chua, and X. Sun, “Exploring principles-of-art features for image emotion recognition,” in ACM MM, 2014.
[5] T. Rao, M. Xu, H. Liu, J. Wang, and I. Burnett, “Multi-scale blocks based image emotion classification using multiple instance learning,” in ICIP, 2016.
[6] S. Zhao, H. Yao, Y. Gao, R. Ji, and G. Ding, “Continuous probability distribution prediction of image emotions via multi-task shared sparse regression,” IEEE Transactions on Multimedia, vol. 19, no. 3, pp. 632– 645, 2017.
[7] W. Wei-ning, Y. Ying-lin, and Z. Jian-chao, “Image emotional classifi- cation: static vs. dynamic,” in SMC, 2004.
[8] H.-B. Kang, “Affective content detection using hmms,” in ACM MM, 2003.
[9] W.WangandQ.He,“Asurveyonemotionalsemanticimageretrieval.,” in ICIP, 2008.
[10] J. Aronoff, “How we recognize angry and happy emotion in people, places, and things,” Cross-cultural research, vol. 40, no. 1, pp. 83–105, 2006.
[11] A. Hanjalic, “Extracting moods from pictures and sounds: Towards truly personalized tv,” IEEE Signal Processing Magazine, vol. 23, no. 2, pp. 90–100, 2006.
[12] J. Itten and E. Van Haagen, The Art of Color; the Subjective Experience and Objective Rationale of Colour. Reinhold, 1962.
JOURNAL OF LATEX CLASS FILES, VOL. 13, NO. 9, SEPTEMBER 2014 10
[13] A. Krizhevsky, I. Sutskever, and G. E. Hinton, “Imagenet classification with deep convolutional neural networks,” in NIPS, 2012.
[14] J. Long, E. Shelhamer, and T. Darrell, “Fully convolutional networks for semantic segmentation,” in CVPR, 2015.
[15] S. Ren, K. He, R. Girshick, and J. Sun, “Faster r-cnn: Towards real-time object detection with region proposal networks,” in NIPS, 2015.
[16] B. Zhou, A. Lapedriza, J. Xiao, A. Torralba, and A. Oliva, “Learning deep features for scene recognition using places database,” in NIPS, 2014.
[17] X. Alameda-Pineda, E. Ricci, Y. Yan, and N. Sebe, “Recognizing emotions from abstract paintings using non-linear matrix completion,” in CVPR, 2016.
[18] J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, and L. Fei-Fei, “Imagenet: A large-scale hierarchical image database,” in CVPR, 2009.
[19] Q. You, J. Luo, H. Jin, and J. Yang, “Building a large scale dataset for image emotion recognition: The fine print and the benchmark,” in AAAI, 2016.
[20] C. Hu, Z. Xu, Y. Liu, L. Mei, L. Chen, and X. Luo, “Semantic link network-based model for organizing multimedia big data,” IEEE Transactions on Emerging Topics in Computing, vol. 2, no. 3, pp. 376– 387, 2014.
[21] Z. Cui, X. Shi, and Y. Chen, “Sentiment analysis via integrating distributed representations of variable-length word sequence,” Neuro- computing, vol. 187, pp. 126–132, 2016.
[22] S. E. Shepstone, Z.-H. Tan, and S. H. Jensen, “Using audio-derived affective offset to enhance tv recommendation,” IEEE Transactions on Multimedia, vol. 16, no. 7, pp. 1999–2010, 2014.
[23] S.Poria,E.Cambria,N.Howard,G.-B.Huang,andA.Hussain,“Fusing audio, visual and textual clues for sentiment analysis from multimodal content,” Neurocomputing, vol. 174, pp. 50–59, 2016.
[24] A. Hanjalic and L.-Q. Xu, “Affective video content representation and modeling,” IEEE Transactions on Multimedia, vol. 7, no. 1, pp. 143– 154, 2005.
[25] M. Soleymani, M. Larson, T. Pun, and A. Hanjalic, “Corpus develop- ment for affective video indexing,” IEEE Transactions on Multimedia, vol. 16, no. 4, pp. 1075–1089, 2014.
[26] K. Yadati, H. Katti, and M. Kankanhalli, “Cavva: Computational af- fective video-in-video advertising,” IEEE Transactions on Multimedia, vol. 16, no. 1, pp. 15–23, 2014.
[27] X. Sun, C. Li, and F. Ren, “Sentiment analysis for chinese microblog based on deep neural networks with convolutional extension features,” Neurocomputing, vol. 210, pp. 227–236, 2016.
[28] M. Xu, J. S. Jin, S. Luo, and L. Duan, “Hierarchical movie affective content analysis based on arousal and valence features,” in ACM MM, 2008.
[29] S. Benini, L. Canini, and R. Leonardi, “A connotative space for supporting movie affective recommendation,” IEEE Transactions on Multimedia, vol. 13, no. 6, pp. 1356–1370, 2011.
[30] J. Tarvainen, M. Sjoberg, S. Westman, J. Laaksonen, and P. Oittinen, “Content-based prediction of movie style, aesthetics, and affect: Data set and baseline experiments,” IEEE Transactions on Multimedia, vol. 16, no. 8, pp. 2085–2098, 2014.
[31] J. Tang, Y. Zhang, J. Sun, J. Rao, W. Yu, Y. Chen, and A. C. M. Fong, “Quantitative study of individual emotional states in social networks,” IEEE Transactions on Affective Computing, vol. 3, no. 2, pp. 132–144, 2012.
[32] K.-C.Peng,T.Chen,A.Sadovnik,andA.C.Gallagher,“Amixedbagof emotions: Model, predict, and transfer emotion distributions,” in CVPR, 2015.
[33] J. A. Mikels, B. L. Fredrickson, G. R. Larkin, C. M. Lindberg, S. J. Maglio, and P. A. Reuter-Lorenz, “Emotional category data on images from the international affective picture system,” Behavior research methods, vol. 37, no. 4, pp. 626–630, 2005.
[34] D.Borth,R.Ji,T.Chen,T.Breuel,andS.-F.Chang,“Large-scalevisual sentiment ontology and detectors using adjective noun pairs,” in ACM MM, 2013.
[35] S.Zhao,H.Yao,Y.Gao,G.Ding,andT.-S.Chua,“Predictingpersonal- ized image emotion perceptions in social networks,” IEEE Transactions on Affective Computing, 2016.
[36] V. Yanulevskaya, J. Van Gemert, K. Roth, A.-K. Herbold, N. Sebe, and J.-M. Geusebroek, “Emotional valence categorization using holistic image features,” in ICIP, 2008.
[37] M. Solli and R. Lenz, “Color based bags-of-emotions,” in CAIP, 2009.
[38] X. Lu, P. Suryanarayan, R. B. Adams Jr, J. Li, M. G. Newman, and J. Z. Wang, “On shape and the computability of emotions,” in ACM
[39] T. Chen, F. X. Yu, J. Chen, Y. Cui, Y.-Y. Chen, and S.-F. Chang, “Object- based visual sentiment concept analysis and application,” in ACM MM, 2014.
[40] M. Tkalcic, A. Odic, A. Kosir, and J. Tasic, “Affective labeling in a content-based recommender system for images,” IEEE transactions on Multimedia, vol. 15, no. 2, pp. 391–400, 2013.
[41] M. D. Zeiler and R. Fergus, “Visualizing and understanding convolu- tional networks,” in ECCV, 2014.
[42] X. Lu, Z. Lin, H. Jin, J. Yang, and J. Z. Wang, “Rapid: rating pictorial aesthetics using deep learning,” in ACM MM, 2014.
[43] V. Andrearczyk and P. F. Whelan, “Using filter banks in convolutional neural networks for texture classification,” Pattern Recognition Letters, vol. 84, pp. 63–69, 2016.
[44] C.Szegedy,W.Liu,Y.Jia,P.Sermanet,S.Reed,D.Anguelov,D.Erhan, V. Vanhoucke, and A. Rabinovich, “Going deeper with convolutions,” in CVPR, 2015.
[45] K. He, X. Zhang, S. Ren, and J. Sun, “Deep residual learning for image recognition,” in CVPR, pp. 770–778, 2016.
[46] V. Yanulevskaya, J. Uijlings, E. Bruni, A. Sartori, E. Zamboni, F. Bacci, D. Melcher, and N. Sebe, “In the eye of the beholder: employing statistical analysis and eye tracking for analyzing abstract paintings,” in ACM MM, 2012.
[47] P. J. Lang, M. M. Bradley, and B. N. Cuthbert, “International affective picture system (iaps): Affective ratings of pictures and instruction manual,” Technical report A-8, 2008.
[48] A. Sartori, D. Culibrk, Y. Yan, and N. Sebe, “Who’s afraid of itten: Using the art theory of color combination to analyze emotions in abstract paintings,” in ACM MM, 2015.
[49] K. Simonyan and A. Zisserman, “Very deep convolutional networks for large-scale image recognition,” CoRR, vol. abs/1409.1556, 2014.
[50] T.Joachims,“Transductiveinferencefortextclassificationusingsupport
vector machines,” in ICML, 1999.
[51] C.-H. Chen, V. M. Patel, and R. Chellappa, “Matrix completion for
resolving label ambiguity,” in CVPR, 2015.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章