Multi-modal Multi-label Emotion Detection with Modality and Label Dependence 閱讀筆記

原創

2021-01-30 11:08

背景

這篇文章講的是多標籤的情感分析，這篇文章是考慮多模態的情感分析，因爲是多標籤 所以需要考慮不同標籤的依賴性，以及每個標籤對不同模態的依賴性

任務的具體例子是：

給定一個視頻，包括三個模態信息（視覺，文本，聲音）然後給出情感傾向（可以是多個）

文章指出 多標籤分類比單標籤分類要更加難，以主要挑戰是如何去對標籤之間的依賴性進行建模，正如上圖所說，一個Sad 很有可能和Disgust 是同時出現的，但是有很小可能會出現 happy 和 sad。

論文內容

特徵初步提取

Text ： word embedding 用的是GLoVe，沒有句子的概念，文本表示爲單詞數 ×單詞維度
Visual ： Facet 提取視覺特徵，包括面部動作單元，面部標誌，頭部姿勢，凝視追蹤，一共34維，一個視頻提取多個幀
Audio ： COVAREP 提取聲音特徵包括： 12 Mel-frequency cepstral coefficients
(MFCCs), pitch, voiced/unvoiced segmenting features

問題描述

（好像EMNLP都有這個部分）

這裏主要是介紹一下符號，可以在後面模型結構中再進行解釋，但是有一點注意其優化目標

因爲是一個多標籤問題，其優化目標就是，找到一個最優 label序列

就是要最大化其條件概率

優化目標如下

模型結構

模型總體結構如上圖。

Multi-modal Sequences Encoding

每一個模態的信息過一個 Transformer 的encoder 得到隱層

Multi-Head Modality Attention

前面得到的encoder 隱層輸入到 decoder 中

decoder 得到的隱層Hd，把上一層的隱層，先進行mulit-head self-attention，得到結果Cd ， 和上一步的 encoder隱層進行Attention，得到從解碼器到編碼器的三個上下文序列

然後再進行mulit-head Attention

我們對前面mulit-head attention 後的Ct ，每個模態的Ct 進行拼接，然後再做一次 Transform 的結構即 Add & Norm， feed-forward network

得到三個模態融合後的特徵向量 Hd 用於進行預測

Emotion Prediction

預測的話非常簡單

直接將向量和一個可訓練的權重矩陣相乘，加上前面的 Mask Vector （transformer的結構需要自己細看）

其訓練過程如下，多標籤使用 beam search 來進行label選擇，選擇好的標籤計算其概率，然後進行模型參數更新

實驗結果

結果依然不錯的

總結

在模型結構方面

大部分是使用transformer 的結構，但是 mulit-modal attention 好像沒用到，融合的方法就是把前面得到的三個模態的特徵向量進行融合，然後過一個attention
模型新任務：多標籤的情感分析， 然後引入多模態來做，加入多個模態信息明顯會提升效果
transformer 要看一下瞭解一下

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Multi-modal Multi-label Emotion Detection with Modality and Label Dependence 閱讀筆記

背景

論文內容

特徵初步提取

問題描述

模型結構

Multi-modal Sequences Encoding

Multi-Head Modality Attention

Emotion Prediction

實驗結果

總結

win11關閉自動檢測病毒刪文件

千兆寬帶實際網速能到達多少？

ubuntu下UVM的編譯及首個程序的驗證

超級生產力：一款集成了 GitHub 的超酷開源待辦事項列表應用

記一次簡單安全事件分析之溯源

Android 音視頻開發視頻編碼，音頻編碼格式

如何手工卸載 WSUS 3.0

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結