背景
這篇文章講的是多標籤的情感分析, 這篇文章是考慮多模態的情感分析, 因爲是多標籤 所以需要考慮不同標籤的依賴性,以及每個標籤對不同模態的依賴性
任務的具體例子是:
給定一個視頻,包括三個模態信息 (視覺, 文本, 聲音)然後給出情感傾向(可以是多個)
文章指出 多標籤分類比單標籤分類要更加難, 以主要挑戰是如何去對標籤之間的依賴性進行建模, 正如上圖所說, 一個Sad 很有可能 和Disgust 是同時出現的, 但是有很小可能會出現 happy 和 sad。
論文內容
特徵初步提取
- Text : word embedding 用的是GLoVe, 沒有句子的概念, 文本 表示爲 單詞數 ×單詞維度
- Visual : Facet 提取視覺特徵, 包括 面部動作單元,面部標誌,頭部姿勢,凝視追蹤, 一共34維, 一個視頻提取多個幀
- Audio : COVAREP 提取聲音特徵 包括: 12 Mel-frequency cepstral coefficients
(MFCCs), pitch, voiced/unvoiced segmenting features
問題描述
(好像EMNLP都有這個部分)
這裏主要是介紹一下符號, 可以在後面模型結構中再進行解釋, 但是有一點注意其優化目標
因爲是一個多標籤問題, 其優化目標就是, 找到一個最優 label序列
就是要最大化 其條件概率
優化目標如下
模型結構
模型總體結構如上圖。
Multi-modal Sequences Encoding
每一個模態的信息過一個 Transformer 的encoder 得到隱層
Multi-Head Modality Attention
前面得到的encoder 隱層 輸入到 decoder 中
decoder 得到的隱層Hd,把上一層的隱層 ,先進行mulit-head self-attention, 得到結果Cd , 和上一步的 encoder隱層 進行Attention, 得到從解碼器到編碼器的三個上下文序列
然後再進行mulit-head Attention
我們對前面mulit-head attention 後的Ct , 每個模態的Ct 進行拼接, 然後再做一次 Transform 的結構 即 Add & Norm, feed-forward network
得到三個模態融合後的 特徵向量 Hd 用於 進行預測
Emotion Prediction
預測的話非常簡單
直接將向量和一個可訓練的權重矩陣相乘, 加上前面的 Mask Vector (transformer的結構 需要自己細看)
其訓練過程如下, 多標籤使用 beam search 來進行label選擇, 選擇好的標籤 計算其概率, 然後進行模型參數更新
實驗結果
結果依然不錯的
總結
在模型結構方面
- 大部分是使用transformer 的結構, 但是 mulit-modal attention 好像沒用到, 融合的方法就是把前面得到的 三個模態的特徵向量進行融合,然後過一個attention
- 模型新任務: 多標籤的情感分析, 然後引入多模態來做, 加入多個模態信息明顯會提升效果
- transformer 要看一下 瞭解一下