MEC 2017：多模式情感識別挑戰

摘要：本文介紹了2017年多模態情感識別挑戰(MEC)的基線，這是第一屆亞洲情感計算和智能交互會議的一部分，(亞洲)2018年。MEC2017的目標是提高真實世界條件下情感識別的性能。中文自然視聽情感數據庫(CHEAVD)2.0作爲挑戰數據庫是2016年MEC發佈的CHEAVD的擴展。2017年MEC有三個子挑戰，31個團隊參與其中的全部或部分。27個隊、16個隊和17個隊團隊分別參與音頻(僅)、視頻(僅)和多模態情感識別子挑戰。生成音頻(僅)和視頻(僅)子挑戰的基線分數。音頻(僅)和視頻(僅)子挑戰的基線分數是由支持向量機(SVM)生成的，其中音頻特徵和視頻特徵是分開考慮的。在多模態子挑戰中，採用特徵級融合和決策級融合，音頻(僅)、視頻(僅)和多模子挑戰的基線爲39.2%，宏觀平均精密度分別爲21.7%和35.7%。

關鍵詞：情感識別挑戰，視聽語料庫，多模態特徵，融合方法

一.前言

自動情感識別技術是通過分析人的語音、面部表情和身體姿態等來識別人的情感狀態的技術。隨着人工智能的發展因此，人們對實現更自然的人機對話系統產生了極大的興趣，情感識別作爲人機交互的一個重要方面，受到了廣泛的關注。注意量[1-3]。

現有的情感挑戰，如音頻/視覺情感挑戰(AVEC)[2，4]，言語間情感挑戰[5]及其前身在InterSpeech，面部表情識別與分析(FRA)[6]，情感挑戰在野外挑戰(EmotiW)[1]或其他相關的任務(如中世紀[7，8]系列中的任務)已經被組織起來。這些主要是基於自發的數據庫，這是對的一項重要努力，羅摩情感識別。然而，在這些努力中使用的挑戰數據庫並不包括中文。由於不同語言和文化的情感表達不同，多模態情感識別挑戰(MEC)提供了一個通用的平臺和通用的基準數據集，促進了漢語多模態情感識別的研究。在我身上 2016年，登記了43個小組，26個小組提交了結果。大多數團隊採用傳統的方法和深度神經網絡來提取多模態特徵，並結合融合方法對進行融合，OST識別性能[9-13]。在多模子挑戰中，大多數團隊考慮了音頻模式和視頻模式。有趣的是，[10，11]通過自動語音識別。除了MEC2016介紹的工作外，[14]還討論了各種視覺描述符，如標度不變特徵變換[15]，面向Gradi的直方圖等。 Ents[16]和局部相位量化[17]用於情感識別。[18]學習特定任務的AU感知的[19]面部特徵，並編碼它們之間的潛在關係以進行魯棒的表情識別。 [20]利用卷積神經網絡，其次是長-短期記憶[21]，提取序列級特徵。[22]將3D卷積網絡[23]引入情感識別，該模型同時對視頻的外觀和運動進行建模。這些研究在多模態情感識別方面取得了顯著的進展。

在2016年第一屆MEC之後，MEC2017有三個子挑戰，31個團隊要麼全部參加，要麼參與其中的一部分。27、16和17組參加音頻(僅)、視頻（分別）。中文自然音頻-視覺情感數據庫(CHEAVD)2.0作爲挑戰數據集，是2016年MEC發佈的CHEAVD[3]的擴展。伸長通過加入更多的樣品來製備離子。CHEAVD2.0和它的前身一樣，是從中國電影、肥皂劇和電視節目中挑選出來的，它們模仿現實世界的情況。

在本文中，我們提出了MEC2017的基線，提供了數據集、基線方法和挑戰協議。音頻(僅)和視頻(僅)子挑戰的基線分數是通用的。支持向量機(SVM)中分別考慮音頻特徵和視頻特徵的，要生成多模子挑戰的基線，可以採用不同的融合方法，例如同時考慮了特徵級融合和決策級融合。

組織者提供的基準音頻和視頻功能集可以免費使用-要麼全部使用，要麼部分使用。然而，它非常鼓勵遵循最初的協議，如她所概述的。如果與參與者進行比較，參與者最多可以在五個試驗中上傳他們的結果，以便在每個子挑戰的測試集上進行評估。在FI中效果最好參賽作品將被認爲是他們在比賽中的最後分數。每個註冊團隊應提交一份論文，介紹該小組使用的結果和方法，並進行同行評審。

本文的結構如下。我們在第二節中詳細描述了CHEAVD2.0。基線特徵和實驗結果分別見第三節和第四節，第五章是全文的結束語。

二、多模態情感數據庫數據集

數據集作爲挑戰中數據驅動方法的一個重要方面，促進了特定任務的研究。爲情感研究提供基本的漢語資源。 1.多模態交互在實際應用中的應用，我們收集了CHEAVD2.0，並將其作爲MEC 2017的數據庫.

CHEAVD2.0是2016年MEC發佈的CHEAVD的擴展，增加了4178個樣本。CHEAVD2.0也是從中國電影、肥皂劇和電視節目中挑選出來的，背景中含有噪音。去模仿現實世界的狀況。所選的樣品截圖見圖1。CHEAVD2.0有474分鐘的自發情緒片段。527名發言者，從兒童到老年人，都包含在這個數據庫中。錄音按性別分佈劃分如下：58.4%爲男性受試者，41.6%爲女性受試者。這些樣本的持續時間範圍從1秒到19秒，平均持續時間爲3.3秒。

2017年MEC採用離散情感標註策略。爲了保持情感標註的一致性，我們在CHEAVD2.0中請四個有經驗的Tagger對每個樣本進行標記。計算效率來評估註釋的一致性，如表一所示。最後，以四個批註的平均數作爲每個片段的唯一標籤。我們只選取了前八大情緒類，即快樂、悲傷、憂慮、憤怒、焦慮、驚訝、厭惡和中性，共7030個樣本。評估情緒識別將這些樣本分爲三組：訓練集、驗證集和測試集，分別包含4917、707和1406個樣本。情感數據集的功能可在表二中找到。參與者可以在訓練集上訓練他們的模型，並根據驗證集選擇超參數，以找到最佳的情感識別。性能最高的型號，在提交階段，參與者應將他們的情緒預測上傳到測試集上。

三、特徵

A.聲學特徵

爲了透明性和易複製性，我們使用了eGeMAPSv01a.conf開放源碼openSMILE工具包[24]中給出的特性規範來提取擴展的日內瓦最小。 USTIC參數集，這也是AVEC 2016競賽[25]和MEC 2016[3]中的基準特徵集，這些特徵對語音情感識別具有很強的魯棒性[10]。

在基線音頻特徵集中，聲低電平描述符包括光譜、倒譜、韻律和語音質量信息，詳見表三。因爲音頻數據包含長連續錄音，它使用固定長度。提取函數的分段，它們以40毫秒的速度向前移動。總的來說，這些聲學基線特徵包含88個音頻特徵。

表三.2017年MEC多模態情感識別挑戰的聲學特徵

Energy & spectral low-level descriptors (26)

聽覺(響度)和，α比(50-1000 Hz/1-5 kHz)1，能量斜率(0-500 Hz，0.5-1.5 kHz)1，Hammarberg索引1，MFCC 1-42，頻譜通量2

Voicing related low-level descriptors (16)

F0(線性和半音調)，Formants 1，2，3(頻率，帶，Ampl.)，諧波差H1-H2，H1-H3，log。HNR，Jitter(本地)，Simmer(本地)

1分別計算濁音和無濁音幀；2分別計算濁音、無濁音和所有幀。

B.視覺特徵

選擇三個正交平面上的局部二值模式(LBPTOP)[26]作爲基線視覺特徵集，顯示了其在已有文獻[14，27，28]中的情感識別性能。

LBPTOP是一種動態紋理，它將紋理擴展到時域。在使用統一編碼的同時，基本LBP有59個特徵。LBPTOP將基本LBP從二維擴展到三維在XY、XT和YT平面上分別應用相關的描述子，並根據直方圖將它們連接在一起(Cf)。圖2)。爲了精確地獲取本地信息，基於塊的MET 利用HOD，將原始幀劃分爲2×2塊。最後提取了2×2×59×3=708的LBPTOP特徵。

爲了減輕背景的影響，人臉預處理方法是必不可少的，包括灰度處理、人臉檢測、人臉變換和人臉歸一化等。面部預處理 hods遵循MEC 2016[3]中使用的方法，在Viola和Jones[30]的基礎上應用跟蹤算法和工具包[29]。對於lbptop，我們使用了所創建的開放源代碼matlab代碼。

第四章 BASELINE EXPERIMENTS

爲了確保結果的完全可重現性，我們完全依賴於公共圖書館的科學學習來計算基線結果。通過與隨機林、adaboost和支持向量機的比較，我們發現支持向量機是,用於小型數據集的礦石分類任務。該模型在訓練數據集上進行優化，在驗證數據集的基礎上選擇超參數，找出最優的情感識別模型。

由於情緒狀態在現實世界中的分佈不均勻，我們選擇宏觀平均精度(MAP)作爲這一挑戰的主要衡量標準，其次是精度(ACC)。計算m 在EQ中給出了MAP和ACC的方法。(1)-(3)

其中s表示情感類的數量。TPI和FPI分別代表第一情感類的真陽性預測數和假陽性預測數。PI爲t 第一情感類的精確性。表四顯示了音頻(僅)、視頻(僅)和多模子挑戰的超參數和基線結果。表五比較了兩種融合MET HODS中的多模態子挑戰：特徵級融合和決策級融合。三個子挑戰的基線結果的混淆矩陣如圖所示。3~5，分別

從表IV中可以看出，優化的分類器在驗證集和測試集上關閉ACC，而MAP顯示最大的差距。這是因爲ACC傾向於如果情感類標籤分佈均勻，ACC值較高。然而，在現實世界中，情感類的分佈並不均勻，因此，我們可以看到地圖。是一種更嚴格的度量，用於評估系統在所有情緒類中的總體表現，而不考慮潛在的低百分比。因爲有些情感課有幾個樣本，地圖在某些情況下不是很穩定。結果表明，少數民族情感課需要進一步努力。

通過表四和表五，地圖中音頻(僅)、視覺(僅)和多模態子挑戰的基線分別爲39.2%、21.7%和35.7%。因此，音頻模式具有最高的地圖。測試的三個子挑戰設置，而視覺模式(僅)是最壞的情況。然而，人們也注意到決策級融合在MAP上有很大的改進。

通過圖3~5，由於缺乏訓練樣本，我們發現焦慮、厭惡、悲傷、驚訝和憂慮難以分類。憤怒和悲傷很容易與其他情緒區分開來。粗略的音頻模式。而且，人們似乎可以通過視覺方式很好地區分快樂和其他情感。所有非中性樣本極有可能被錯誤分類爲由於階級分佈不平衡，這是一個人在現實生活中不得不面對的自然現象。

五.結論

本文介紹了2017年多模態情感識別挑戰(MEC)的基線，重點介紹了挑戰的數據、基線方法和協議。現有情緒挑戰，如avec和EmotiW，是促進情感識別的重要努力。然而，在這些努力中使用的挑戰數據集並不包括中文。然而，考慮到漢語的文化差異和與發音有顯著差異的一種不同的語言，瞭解漢語情感識別的現狀是很有趣的。 IC的觀點，鑑於它的色調性質。CHEAVD2.0被用作挑戰數據集，包含7030個樣本，因此比以前在該主題上的嘗試要大。2017年MEC有三次 LINELES：音頻(僅)，視頻(僅)和多模子挑戰，分別聲學特徵和視覺特徵是用開源工具包提取的，SIN基線評分，Gle模式子挑戰是由一個開放源碼的支持向量機分類器產生的，爲了獲得多模態子挑戰的基線分數，考慮了多種融合方法.的基線分數 MAP中音頻(僅)、視頻(僅)和多模子挑戰分別爲39.2%、21.7%和35.7%。

MEC 2017：多模式情感識別挑戰

MEC 2017：多模式情感識別挑戰

一.前言

二、多模態情感數據庫數據集

三、特徵

A.聲學特徵

B.視覺特徵

第四章 BASELINE EXPERIMENTS

五.結論

Android啓動過程-萬字長文(Android14)

【SQL進階】CASE語句的使用

這種嵌套字典類型的數據，我想把它讀取到df裏，如何操作？

optional install error: Error: Unsupported URL Type: npm:vue-loader@^16.1.0

微調真的能讓LLM學到新東西嗎:引入新知識可能讓模型產生更多的幻覺

iNeuOS工業互聯網操作系統，增加電力IEC104協議

微服務實踐k8s&dapr開發部署實驗（3）訂閱發佈

kbgressdb之數據結構V0.2

打開CSV文件寫入另一個CSV

目標檢測標註格式轉換

softmax損失函數理解

Logit模型

sklearn 模型保存

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結