前言
論文講的是兩個模態的情感分析, 作者提出一個網絡,此網絡通過在多個層次上引入注意力,從視覺和文本中產生區分性特徵。 通過利用視覺數據中的通道channel注意力和空間注意力來獲得雙注意力的視覺特徵。
總體來說
- 用 兩個注意力 channel attention 和 spatial attention 注意力 提高CNN 採集圖像特徵能力
- 提出 語義注意力 模擬單詞的圖像區域與語義之間的相關性, 也就是一個JOINT ATTENDED MULTIMODAL LEARNING的過程(聯合多模態學習)
模型結構
從圖可以看出來 ,模型結構不算複雜
- 兩模態
- 視覺部分 用 兩個Attention
- 文本部分先用LSTM 提取 然後加入視覺信息, 最終來分類
下面就分兩塊來說, 一是視覺提取模塊, 二是 多模態融合(學習)模塊
視覺提取模塊
視覺提取模塊及結構如下圖
M表示 用Inception V3 得到圖片的特徵
AP 表示 average pooling
element-wise 表示
Channel Attention
這個在CV 上的 物體檢測上用的比較多, 但是在情感分析方面, 大家忽略了channel 維度的Attention,作者在這裏用到, 其結構如下圖, 比較簡單
用Inception V3 得到圖片的特徵 , 然後過一個channel attention , 其公式是
Spatial Attention
在上一步我們得到 Ac 也就是 經過Channel attention 得到的特徵 F , 然後我們在經過一個Spatial Attention結構
多模態聯合學習模塊
首先 每個單詞經過Glove 的embedding 後 過一個LSTM 得到 有上下文的 單詞表示
Semantic Attention
對每個單詞表示和 之前提取的視覺特徵Vf進行 semantic attention,
- 先計算聯合特徵
- 計算每個單詞權重
- 得到單詞特徵加權和 加權和表示語義特徵Sf
融合
然後我們將得到的語義特徵和視覺特徵 拼接起來, 用一個self-attention 進一步提取特徵, 得到最後的特徵表示進行分類
總結
這篇文章還是寫的比較好的
- 效果提升 我覺得首先在初步的提取部分 視覺部分比較關鍵, 說明說明: 特徵提的好, 效果沒煩惱
- 融合方面把單詞的特徵 和 視覺結合在一起, 但是又不是Attention 的做法, 感覺理解還不是很透徹, 找師兄討論一下