MEC 2017:多模式情感識別挑戰

MEC 2017:多模式情感識別挑戰

摘要:本文介紹了2017年多模態情感識別挑戰(MEC)的基線,這是第一屆亞洲情感計算和智能交互會議的一部分,(亞洲)2018年。MEC2017的目標是提高真實世界條件下情感識別的性能。中文自然視聽情感數據庫(CHEAVD)2.0作爲挑戰數據庫是2016年MEC發佈的CHEAVD的擴展。2017年MEC有三個子挑戰,31個團隊參與其中的全部或部分。27個隊、16個隊和17個隊 團隊分別參與音頻(僅)、視頻(僅)和多模態情感識別子挑戰。生成音頻(僅)和視頻(僅)子挑戰的基線分數。 音頻(僅)和視頻(僅)子挑戰的基線分數是由支持向量機(SVM)生成的,其中音頻特徵和視頻特徵是分開考慮的。在多模態子挑戰中,採用特徵級融合和決策級融合,音頻(僅)、視頻(僅)和多模子挑戰的基線爲39.2%, 宏觀平均精密度分別爲21.7%和35.7%。

關鍵詞:情感識別挑戰,視聽語料庫,多模態特徵,融合方法

一.前言

自動情感識別技術是通過分析人的語音、面部表情和身體姿態等來識別人的情感狀態的技術。隨着人工智能的發展 因此,人們對實現更自然的人機對話系統產生了極大的興趣,情感識別作爲人機交互的一個重要方面,受到了廣泛的關注。 注意量[1-3]。

現有的情感挑戰,如音頻/視覺情感挑戰(AVEC)[2,4],言語間情感挑戰[5]及其前身在InterSpeech,面部表情識別與分析(FRA)[6],情感挑戰在野外挑戰(EmotiW)[1]或其他相關的任務(如中世紀[7,8]系列中的任務)已經被組織起來。這些主要是基於自發的數據庫,這是對的一項重要努力, 羅摩情感識別。然而,在這些努力中使用的挑戰數據庫並不包括中文。由於不同語言和文化的情感表達不同,多模態情感識別挑戰(MEC)提供了一個通用的平臺和通用的基準數據集,促進了漢語多模態情感識別的研究。在我身上 2016年,登記了43個小組,26個小組提交了結果。大多數團隊採用傳統的方法和深度神經網絡來提取多模態特徵,並結合融合方法對進行融合,OST識別性能[9-13]。在多模子挑戰中,大多數團隊考慮了音頻模式和視頻模式。有趣的是,[10,11]通過自動語音識別。除了MEC2016介紹的工作外,[14]還討論了各種視覺描述符,如標度不變特徵變換[15],面向Gradi的直方圖等。 Ents[16]和局部相位量化[17]用於情感識別。[18]學習特定任務的AU感知的[19]面部特徵,並編碼它們之間的潛在關係以進行魯棒的表情識別。 [20]利用卷積神經網絡,其次是長-短期記憶[21],提取序列級特徵。[22]將3D卷積網絡[23]引入情感識別, 該模型同時對視頻的外觀和運動進行建模。這些研究在多模態情感識別方面取得了顯著的進展。

在2016年第一屆MEC之後,MEC2017有三個子挑戰,31個團隊要麼全部參加,要麼參與其中的一部分。27、16和17組參加音頻(僅)、視頻(分別)。中文自然音頻-視覺情感數據庫(CHEAVD)2.0作爲挑戰數據集,是2016年MEC發佈的CHEAVD[3]的擴展。伸長通過加入更多的樣品來製備離子。CHEAVD2.0和它的前身一樣,是從中國電影、肥皂劇和電視節目中挑選出來的,它們模仿現實世界的情況。

在本文中,我們提出了MEC2017的基線,提供了數據集、基線方法和挑戰協議。音頻(僅)和視頻(僅)子挑戰的基線分數是通用的。 支持向量機(SVM)中分別考慮音頻特徵和視頻特徵的,要生成多模子挑戰的基線,可以採用不同的融合方法,例如同時考慮了特徵級融合和決策級融合

組織者提供的基準音頻和視頻功能集可以免費使用-要麼全部使用,要麼部分使用。然而,它非常鼓勵遵循最初的協議,如她所概述的。 如果與參與者進行比較,參與者最多可以在五個試驗中上傳他們的結果,以便在每個子挑戰的測試集上進行評估。在FI中效果最好參賽作品將被認爲是他們在比賽中的最後分數。每個註冊團隊應提交一份論文,介紹該小組使用的結果和方法,並進行同行評審。 

本文的結構如下。我們在第二節中詳細描述了CHEAVD2.0。基線特徵和實驗結果分別見第三節和第四節,第五章是全文的結束語。

二、多模態情感數據庫數據集

數據集作爲挑戰中數據驅動方法的一個重要方面,促進了特定任務的研究。爲情感研究提供基本的漢語資源。 1.多模態交互在實際應用中的應用,我們收集了CHEAVD2.0,並將其作爲MEC 2017的數據庫.

CHEAVD2.0是2016年MEC發佈的CHEAVD的擴展,增加了4178個樣本。CHEAVD2.0也是從中國電影、肥皂劇和電視節目中挑選出來的,背景中含有噪音。 去模仿現實世界的狀況。所選的樣品截圖見圖1。CHEAVD2.0有474分鐘的自發情緒片段。527名發言者,從兒童到老年人,都包含在這個數據庫中。錄音按性別分佈劃分如下:58.4%爲男性受試者,41.6%爲女性受試者。這些樣本的持續時間 範圍從1秒到19秒,平均持續時間爲3.3秒。

2017年MEC採用離散情感標註策略。爲了保持情感標註的一致性,我們在CHEAVD2.0中請四個有經驗的Tagger對每個樣本進行標記。計算效率來評估註釋的一致性,如表一所示。最後,以四個批註的平均數作爲每個片段的唯一標籤。 我們只選取了前八大情緒類,即快樂、悲傷、憂慮、憤怒、焦慮、驚訝、厭惡和中性,共7030個樣本。評估情緒識別 將這些樣本分爲三組:訓練集、驗證集和測試集,分別包含4917、707和1406個樣本。情感數據集的功能可在表二中找到。參與者可以在訓練集上訓練他們的模型,並根據驗證集選擇超參數,以找到最佳的情感識別。性能最高的型號,在提交階段,參與者應將他們的情緒預測上傳到測試集上。

三、特徵

A.聲學特徵

爲了透明性和易複製性,我們使用了eGeMAPSv01a.conf開放源碼openSMILE工具包[24]中給出的特性規範來提取擴展的日內瓦最小。 USTIC參數集,這也是AVEC 2016競賽[25]和MEC 2016[3]中的基準特徵集,這些特徵對語音情感識別具有很強的魯棒性[10]。

在基線音頻特徵集中,聲低電平描述符包括光譜、倒譜、韻律和語音質量信息,詳見表三。因爲音頻數據包含 長連續錄音,它使用固定長度。提取函數的分段,它們以40毫秒的速度向前移動。總的來說,這些聲學基線特徵包含88個音頻特徵。

表三.2017年MEC多模態情感識別挑戰的聲學特徵

Energy & spectral low-level descriptors (26)
聽覺(響度)和,α比(50-1000 Hz/1-5 kHz)1,能量斜率(0-500 Hz,0.5-1.5 kHz)1,Hammarberg索引1,MFCC 1-42,頻譜通量2
Voicing related low-level descriptors (16)
F0(線性和半音調),Formants 1,2,3(頻率,帶,Ampl.),諧波差H1-H2,H1-H3,log。HNR,Jitter(本地),Simmer(本地)

1分別計算濁音和無濁音幀;2分別計算濁音、無濁音和所有幀。

B.視覺特徵

選擇三個正交平面上的局部二值模式(LBPTOP)[26]作爲基線視覺特徵集,顯示了其在已有文獻[14,27,28]中的情感識別性能。

LBPTOP是一種動態紋理,它將紋理擴展到時域。在使用統一編碼的同時,基本LBP有59個特徵。LBPTOP將基本LBP從二維擴展到三維 在XY、XT和YT平面上分別應用相關的描述子,並根據直方圖將它們連接在一起(Cf)。圖2)。爲了精確地獲取本地信息,基於塊的MET 利用HOD,將原始幀劃分爲2×2塊。最後提取了2×2×59×3=708的LBPTOP特徵。

爲了減輕背景的影響,人臉預處理方法是必不可少的,包括灰度處理、人臉檢測、人臉變換和人臉歸一化等。面部預處理 hods遵循MEC 2016[3]中使用的方法,在Viola和Jones[30]的基礎上應用跟蹤算法和工具包[29]。對於lbptop,我們使用了所創建的開放源代碼matlab代碼。 

第四章 BASELINE EXPERIMENTS

爲了確保結果的完全可重現性,我們完全依賴於公共圖書館的科學學習來計算基線結果。通過與隨機林、adaboost和支持向量機的比較,我們發現支持向量機是,用於小型數據集的礦石分類任務。該模型在訓練數據集上進行優化,在驗證數據集的基礎上選擇超參數,找出最優的情感識別模型。 

由於情緒狀態在現實世界中的分佈不均勻,我們選擇宏觀平均精度(MAP)作爲這一挑戰的主要衡量標準,其次是精度(ACC)。計算m 在EQ中給出了MAP和ACC的方法。(1)-(3)

其中s表示情感類的數量。TPI和FPI分別代表第一情感類的真陽性預測數和假陽性預測數。PI爲t 第一情感類的精確性。表四顯示了音頻(僅)、視頻(僅)和多模子挑戰的超參數和基線結果。表五比較了兩種融合MET HODS中的多模態子挑戰:特徵級融合和決策級融合。三個子挑戰的基線結果的混淆矩陣如圖所示。3~5,分別

從表IV中可以看出,優化的分類器在驗證集和測試集上關閉ACC,而MAP顯示最大的差距。這是因爲ACC傾向於如果情感類標籤分佈均勻,ACC值較高。然而,在現實世界中,情感類的分佈並不均勻,因此,我們可以看到地圖。 是一種更嚴格的度量,用於評估系統在所有情緒類中的總體表現,而不考慮潛在的低百分比。因爲有些情感課 有幾個樣本,地圖在某些情況下不是很穩定。結果表明,少數民族情感課需要進一步努力。

通過表四和表五,地圖中音頻(僅)、視覺(僅)和多模態子挑戰的基線分別爲39.2%、21.7%和35.7%。因此,音頻模式具有最高的地圖。 測試的三個子挑戰設置,而視覺模式(僅)是最壞的情況。然而,人們也注意到決策級融合在MAP上有很大的改進。

通過圖3~5,由於缺乏訓練樣本,我們發現焦慮、厭惡、悲傷、驚訝和憂慮難以分類。憤怒和悲傷很容易與其他情緒區分開來。 粗略的音頻模式。而且,人們似乎可以通過視覺方式很好地區分快樂和其他情感。所有非中性樣本極有可能被錯誤分類爲由於階級分佈不平衡,這是一個人在現實生活中不得不面對的自然現象。

五.結論

本文介紹了2017年多模態情感識別挑戰(MEC)的基線,重點介紹了挑戰的數據、基線方法和協議。現有情緒挑戰,如avec和EmotiW,是促進情感識別的重要努力。然而,在這些努力中使用的挑戰數據集並不包括中文。然而, 考慮到漢語的文化差異和與發音有顯著差異的一種不同的語言,瞭解漢語情感識別的現狀是很有趣的。 IC的觀點,鑑於它的色調性質。CHEAVD2.0被用作挑戰數據集,包含7030個樣本,因此比以前在該主題上的嘗試要大。2017年MEC有三次 LINELES:音頻(僅),視頻(僅)和多模子挑戰,分別聲學特徵和視覺特徵是用開源工具包提取的,SIN基線評分,Gle模式子挑戰是由一個開放源碼的支持向量機分類器產生的,爲了獲得多模態子挑戰的基線分數,考慮了多種融合方法.的基線分數 MAP中音頻(僅)、視頻(僅)和多模子挑戰分別爲39.2%、21.7%和35.7%。

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章