文章翻譯:Learning Multi-level Deep Representation for Image Emotion Classification

標題:Learning Multi-level Deep Representations for Image Emotion Classification
作者:Tianrong Rao, Student Member, IEEE, Min Xu, Member, IEEE, Dong Xu, Senior Member , IEEE,
翻譯:csf


基於學習多層次深度表徵的圖像情感分類

摘要

在這篇文章中,我們提出了一種新的基於學習多層次深度表徵的深度網絡用於解決圖像的情感分類問題。圖像的情感的感知可以通過利用圖像全局和局部的圖像語義、意像美學和低層次視覺特徵來完成。現存的圖像情感分類方法大多利用人工構造的特徵或者是深層特徵,主要集中在低層次的視覺特徵或是語義層次的視覺表徵而不是把所有的因素都考慮在內。而MldrNet網絡結合了不同層次的深度表徵,例如圖像語義,意像美學,和低層次的視覺特徵來有效的區分不同種類圖像(如抽象畫、互聯網圖片)的情感類型。廣泛的實驗表明,無論是在互聯網圖片還是抽象畫上,本文提出的方法都優於使用手工特徵和深層特徵的當前最爲先進的方法。就整體的分類精度而言,文中提出的方法的方法比當前最爲先進的方法性能提升了至少6%.

1.簡介

心理學研究早已揭示了人類的情感會隨着不同的視覺刺激(例如圖像和視頻)而改變.受這些研究的啓發,計算機科學家們開始預測在給定的一系列視覺內容下人類的情感反應.這樣的研究課題被稱爲"圖像情感分類",該課題在近些年來吸引了越來越多的關注.然而對比語義層的圖像分析,由於情感的複雜性和獨立性,在情感層對圖像進行分析顯得更加困難.

如圖1所示,圖像的情感與一些複雜的視覺特徵息息相關,而這些特徵又遍佈圖像全局和局部視圖的低層次到高層次之中.來自局部視圖的低層次視覺特徵例如顏色,形狀和紋理最先被用來用於圖像的情感分類.Joshi等人認爲圖像的情感與藝術作品的意像美學有着高度的聯繫.基於他們的研究,我們可以運用構成、視覺平衡、強調等表現意像美學的中層特徵對圖像情感進行分類.Machajdik和Hanbury認爲圖像的語義內容能夠有效地影響圖像的情感.他們聯合運用了全局視圖的高層次圖像語義和Itten的色彩關聯的藝術理論來感知圖像的情感.然而大多數現存的方法都依賴於手工構建特徵,這些特徵是基於人類普遍感覺和觀察手工構建的.而這種方法很難將與圖像情感有關的所有重要的因素(例如圖像語義,意像美學和低層次的視覺特徵等等)全部考慮在內.

近來,隨着卷積神經網絡大受歡迎,視覺認知任務取得很多重大突破(例如圖像分類,圖像分割,物體檢測和場景識別).CNN提供了一種端對端的特徵學習框架,它可以自動的從全局視圖中學到圖像的深層表徵,而非手動構造圖像特徵.很多研究人員也把CNN用於圖像的情感分類.然而,從圖2我們可以看出,當前使用CNN的方法中,例如AlexNet,對於視覺識別來說,無法較好的處理中層次的意像美學和來源於局部視圖的低層次圖像特徵.在參考文獻[17]中,作者認爲AlexNet不能足夠有效的從抽象畫中提取情感信息,而抽象畫的情感則主要由中層次的意像美學和低層次的視覺特徵表示.

另外,基於CNN的方法通常需要依賴於大規模手工構造的訓練集.擁有不同文化背景的的人對於一張特定的圖片可能有着非常不同的情感反應.因此,與互聯網圖片有關的情感文本語境(例如標題,標籤和描述)可能並不足夠可靠,而且還會致使從網絡上搜集而來的用於情感分類的數據集可能會包含噪聲和不準確的情感標籤.現存的一些用於圖像情感分類的方法,如AlexNet,在使用到那些帶噪聲標籤的數據作爲訓練集的時候,可能會發生退化.

考慮到上面提到的兩種挑戰,在這篇文章中我們提出了一種新的可以從全局和局部視圖中學習到多層次的深度表徵的深度網絡(MldrNet)用於解決圖像的情感分類問題.圖3是MldrNet網絡的一個概述圖.傳統的CNN方法被設計用來對處於中心位置的物體進行分類,這樣不能有效的提取中層次的意像美學和來自局部視圖的低層次的視覺特徵.爲了對整個整個圖像的不同層次的深度表徵進行端到端的學習,我們提出了一種帶分支的CNN模型來提取不同層次的深度表徵.通過一個融合層,不同層次的深度表徵被整合到一起用於執行分類任務.我們注意到,當使用帶有噪聲標籤的數據作爲訓練數據的時候,不同的融合方法將嚴重影響到分類結果.爲了展示我們MldrNet網絡的效果和探索不同融合方法的影響,我們在很多公開可用的數據集(例如網絡圖片和抽象畫)上做了大量的實驗.

我們文章主要的貢獻在於我們提出了一種基於CNN的結合了多種不同層次深度表徵(例如那些來自全局和局部視圖中的圖像語義,意像美學,和低層次的視覺特徵)的方法.通過結合這些不同層次的深度表徵,我們的方法可以有效的從圖像中提取到情感信息.實驗結果表明,我們的方法優於使用手工特徵和深層特徵的當前最爲先進的方法.

需要提醒的一點是,我們的文章是按照下面的方式組織起來的.在第二部分,我們將會重溫與圖像情感分類的相關網絡模型.我們提出的用於圖像情感分類的多層深度表徵的網絡會在第三部中介紹.在第四部分中,我們通過大量的實驗呢來說明,我們的網絡模型在跟現存已有的網絡相比,不僅有效的提高了情感分類的效率,同時也在處理噪聲標籤時顯得各更爲有效.最後,我們在第五部分總結了我們網絡的未來研究方向.

2.相關網絡

這幾年情感內容分析在多媒體領域已經得到了廣泛的研究,包括文本,音頻,視頻和圖像.對於視覺情感分類,現存的研究大約被分成兩種方法:DES(dimensional emotion space)和CES(categorical emotion states).DES模型利用3維valence-arousal-control情感空間,3維natural-temporal-energetic隱含空間,3維activity-weight-heat情感因子,以及2維valence-arousal情感空間來爲情感提供可預測的和靈活的描述.在CES模型中,計算結果被直接映射到幾種基本類別(如憤怒,激動,悲傷等等)中的一種.與DES模型相比,CES模型更容易被人們理解和標註,因此在最近的研究中,這種方法得到了廣泛的應用.爲了把我們的成果與現有的成果做比較,我們採用CES模型將情緒分爲8種類別,而這8種類別的情緒在嚴格的心理學研究中已經被預定義過了.
用於圖像情感分類的視覺特徵是從不同層次被設計和提取的.Yanulevskaya等人首次提出根據低層次特徵(包含Gabor特徵和Wiccest特徵)對藝術品進行情感分類的方法.Solli 和 Lenz引入了一種基於顏色情感相關的圖像描述符,這種源於心理物理學的實驗的描述符被用於圖像分類任務.參考文獻[38]中討論了形狀特徵對圖像情感分類的影響.參考文獻[5]中,從全局和局部視圖中被提取到的SIFT特徵被用於圖像的情感預測.基於藝術和心理學理論,Machajdik等人定義了一種是由用豐富的手工設計而成的中層次特徵構成的組合(包括構成,色差和紋理).趙等人在文[4]中引入了更多健壯的,穩定的中層次視覺特徵,這些特徵根據藝術原則來提取有關圖像情感的信息.近年來,文[34]、[39]在視覺情感分析中引入了與對象檢測相關的高級形容詞名詞對。Tkalcic等人在文獻[40]中指出了面部表情對圖像的情感影響,並且得到了基於高層次語義內容的圖像情感標籤.然而那些手工設計的視覺特徵已經被證明只在一些小數據集上有效,這些數據集中的圖像都是從一小部分特定領域(例如抽象畫和肖像畫)中選出來的.這限制了圖像情感分類在大規模圖像集中的應用.

考慮近期基於CNN的方法在許多計算機視覺任務(如圖像分類,圖像分割,物體檢測和場景識別)上的大獲成功,基於CNN的方法同樣也被引入到了圖像情感分析中.Peng等人在t文獻呢[13]中率先嚐試應用CNN模型.他們整合了在ImageNet上預訓練過的卷積神經網絡,並且說明了CNN模型在Emotion6數據及上的表現優於之前那些依賴不同層次手工設計的特徵.You等人結合了CNN模型和SVM模型來在大規模網絡圖片的數據集下檢測圖像的情感.這些工作通常藉助流行的CNN模型來完成,CNN模型也經常被用於圖像情感分類中圖像分類和物體檢測任務.然而廣泛的應用CNN模型不能有效的對圖像進行分類,因爲圖像的情感主要由低層次和中層次的特徵引發,如抽象畫和藝術照.因此,在本文中,我們提出一種新的能夠專門用於處理圖像情感的CNN模型.

3. 提出的方法

在本部分中,我們引入了一種學習了多層深度表徵(MldrNet)的方法來用於圖像的情感分類.考慮到圖像的情感與不同層級的特徵(如高層圖像語義,中層意像美學和低層視覺特徵)有關,我們的方法用一種CNN結構統一了不同層級的深度表徵.在此基礎上,我們提出了一種用於聚合圖像情感特徵的融合層.根據前面提到的發現,用於視覺情感分類的情感類別被劃分爲8類.(積極樂觀的情感有:愉悅,敬畏,滿足和興奮;消極悲觀的情感有:憤怒,厭惡,擔心和悲傷.)

A.卷積神經網絡.

在引入我們MldrNet模型之前,讓我們先來重溫一下已經在計算機視覺領域得到廣泛應用的CNN模型.給出一個訓練樣本{(x,y)}\{(x,y)\},其中xx是一張圖像,yy是與之相關聯的標籤,CNN利用卷積層和全連通層提取輸入圖像的分層表示.緊接着就是softmax層,最後一層全連接層的輸出可以被轉化成一個概率分佈pRmp \in R^m用於nn類的圖像情感分類.其中,n=8n = 8表示8種類型.表示圖片屬於某種特定情感類別的可能性定義如下:pi=exp(hi)iexp(hi),i=1,...,n.(1)p_i = \frac{exp(h_i)}{\sum_{i}exp(h_i)},i=1,...,n. (1).其中hih_i表示最後一層全連接層的輸出.所預測概率分佈的損失函數e可以用交叉熵來表示L=iyilog(pi).(2)L=-\sum_{i}y_{i}log(p_i). (2).其中y={yiyi{0,1},i=1,...,n,i=1npi=1}y = \{y_i|y_i \in \{0,1\},i=1,...,n,\sum_{i=1}^{n}p_i = 1\}表示的是圖像情感的真實標籤.

AlexNet基於大規模數據集上對圖像進行分類.它包含了5個卷積層,每層後都接一個最大池化層,再隨後跟着3個全連接層,分別有4096,4096,8個神經元.AlexNet的結構如圖4(a)所示.AlexNet主要用於在語義層對圖像進行分類,而且該網絡傾向於提取有關圖像語義的高層次深度表徵.但它並不能有效地從抽象畫中提取信息,因爲抽象畫的情感主要由中層的意像美學和低層次的視覺特徵來傳達的.正如在第一部分中所討論的那樣,AlexNet所攜帶的信息不足以用於圖像情感分類任務.

B.對於各種不同的CNN模型的分析.

與情感有關的圖像特徵大致可以被劃分爲低層次特徵(顏色,線條和紋理),中層次特徵(意像美學)和高層次特徵(圖像語義)這三類.因爲CNN模型包含多層過濾器,經歷過CNN模型的多層過濾器得到的圖像表徵的層次是很高的.這就意味着如果CNN結構包含更多的卷積層,那麼從CNN結構中提取到的特徵的層次就會更高.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章