Multi-modal Multi-label Emotion Detection with Modality and Label Dependence 閱讀筆記

背景

這篇文章講的是多標籤的情感分析, 這篇文章是考慮多模態的情感分析, 因爲是多標籤 所以需要考慮不同標籤的依賴性,以及每個標籤對不同模態的依賴性

任務的具體例子是:

在這裏插入圖片描述

給定一個視頻,包括三個模態信息 (視覺, 文本, 聲音)然後給出情感傾向(可以是多個)

文章指出 多標籤分類比單標籤分類要更加難, 以主要挑戰是如何去對標籤之間的依賴性進行建模, 正如上圖所說, 一個Sad 很有可能 和Disgust 是同時出現的, 但是有很小可能會出現 happy 和 sad。

論文內容

特徵初步提取

  • Text : word embedding 用的是GLoVe, 沒有句子的概念, 文本 表示爲 單詞數 ×單詞維度
  • Visual : Facet 提取視覺特徵, 包括 面部動作單元,面部標誌,頭部姿勢,凝視追蹤, 一共34維, 一個視頻提取多個幀
  • Audio : COVAREP 提取聲音特徵 包括: 12 Mel-frequency cepstral coefficients
    (MFCCs), pitch, voiced/unvoiced segmenting features

問題描述

(好像EMNLP都有這個部分)

這裏主要是介紹一下符號, 可以在後面模型結構中再進行解釋, 但是有一點注意其優化目標

因爲是一個多標籤問題, 其優化目標就是, 找到一個最優 label序列

就是要最大化 其條件概率

在這裏插入圖片描述

優化目標如下

在這裏插入圖片描述

模型結構

在這裏插入圖片描述

模型總體結構如上圖。

Multi-modal Sequences Encoding

每一個模態的信息過一個 Transformer 的encoder 得到隱層

在這裏插入圖片描述

Multi-Head Modality Attention

前面得到的encoder 隱層 輸入到 decoder 中

在這裏插入圖片描述

decoder 得到的隱層Hd,把上一層的隱層 ,先進行mulit-head self-attention, 得到結果Cd , 和上一步的 encoder隱層 進行Attention, 得到從解碼器到編碼器的三個上下文序列

然後再進行mulit-head Attention

在這裏插入圖片描述

我們對前面mulit-head attention 後的Ct , 每個模態的Ct 進行拼接, 然後再做一次 Transform 的結構 即 Add & Norm, feed-forward network
在這裏插入圖片描述

得到三個模態融合後的 特徵向量 Hd 用於 進行預測

Emotion Prediction

預測的話非常簡單
在這裏插入圖片描述

直接將向量和一個可訓練的權重矩陣相乘, 加上前面的 Mask Vector (transformer的結構 需要自己細看)

其訓練過程如下, 多標籤使用 beam search 來進行label選擇, 選擇好的標籤 計算其概率, 然後進行模型參數更新

在這裏插入圖片描述

實驗結果

結果依然不錯的

在這裏插入圖片描述

總結

在模型結構方面

  • 大部分是使用transformer 的結構, 但是 mulit-modal attention 好像沒用到, 融合的方法就是把前面得到的 三個模態的特徵向量進行融合,然後過一個attention
  • 模型新任務: 多標籤的情感分析, 然後引入多模態來做, 加入多個模態信息明顯會提升效果
  • transformer 要看一下 瞭解一下
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章