閱讀筆記 A Deep Multi-Level Attentive network for Multimodal Sentiment Analysis

前言

論文講的是兩個模態的情感分析, 作者提出一個網絡,此網絡通過在多個層次上引入注意力,從視覺和文本中產生區分性特徵。 通過利用視覺數據中的通道channel注意力空間注意力來獲得雙注意力的視覺特徵。

總體來說

  • 用 兩個注意力 channel attention 和 spatial attention 注意力 提高CNN 採集圖像特徵能力
  • 提出 語義注意力 模擬單詞的圖像區域與語義之間的相關性, 也就是一個JOINT ATTENDED MULTIMODAL LEARNING的過程(聯合多模態學習)

模型結構

在這裏插入圖片描述

從圖可以看出來 ,模型結構不算複雜

  • 兩模態
  • 視覺部分 用 兩個Attention
  • 文本部分先用LSTM 提取 然後加入視覺信息, 最終來分類

下面就分兩塊來說, 一是視覺提取模塊, 二是 多模態融合(學習)模塊

視覺提取模塊

視覺提取模塊及結構如下圖

在這裏插入圖片描述

M表示 用Inception V3 得到圖片的特徵

AP 表示 average pooling

element-wise 表示

在這裏插入圖片描述

Channel Attention

這個在CV 上的 物體檢測上用的比較多, 但是在情感分析方面, 大家忽略了channel 維度的Attention,作者在這裏用到, 其結構如下圖, 比較簡單

在這裏插入圖片描述

用Inception V3 得到圖片的特徵 , 然後過一個channel attention , 其公式是

在這裏插入圖片描述

Spatial Attention

在上一步我們得到 Ac 也就是 經過Channel attention 得到的特徵 F , 然後我們在經過一個Spatial Attention結構

在這裏插入圖片描述

多模態聯合學習模塊

首先 每個單詞經過Glove 的embedding 後 過一個LSTM 得到 有上下文的 單詞表示

Semantic Attention

對每個單詞表示和 之前提取的視覺特徵Vf進行 semantic attention,

  • 先計算聯合特徵

在這裏插入圖片描述

  • 計算每個單詞權重

在這裏插入圖片描述

  • 得到單詞特徵加權和 加權和表示語義特徵Sf

在這裏插入圖片描述

融合

然後我們將得到的語義特徵和視覺特徵 拼接起來, 用一個self-attention 進一步提取特徵, 得到最後的特徵表示進行分類

總結

這篇文章還是寫的比較好的

  • 效果提升 我覺得首先在初步的提取部分 視覺部分比較關鍵, 說明說明: 特徵提的好, 效果沒煩惱
  • 融合方面把單詞的特徵 和 視覺結合在一起, 但是又不是Attention 的做法, 感覺理解還不是很透徹, 找師兄討論一下
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章