閱讀筆記 A Deep Multi-Level Attentive network for Multimodal Sentiment Analysis

原創

2021-01-30 10:22

前言

論文講的是兩個模態的情感分析，作者提出一個網絡，此網絡通過在多個層次上引入注意力，從視覺和文本中產生區分性特徵。通過利用視覺數據中的通道channel注意力和空間注意力來獲得雙注意力的視覺特徵。

總體來說

用兩個注意力 channel attention 和 spatial attention 注意力提高CNN 採集圖像特徵能力
提出 語義注意力 模擬單詞的圖像區域與語義之間的相關性，也就是一個JOINT ATTENDED MULTIMODAL LEARNING的過程（聯合多模態學習)

模型結構

從圖可以看出來，模型結構不算複雜

兩模態
視覺部分用兩個Attention
文本部分先用LSTM 提取然後加入視覺信息，最終來分類

下面就分兩塊來說，一是視覺提取模塊，二是多模態融合（學習）模塊

視覺提取模塊

視覺提取模塊及結構如下圖

M表示用Inception V3 得到圖片的特徵

AP 表示 average pooling

element-wise 表示

Channel Attention

這個在CV 上的物體檢測上用的比較多，但是在情感分析方面，大家忽略了channel 維度的Attention，作者在這裏用到，其結構如下圖，比較簡單

用Inception V3 得到圖片的特徵，然後過一個channel attention ，其公式是

Spatial Attention

在上一步我們得到 Ac 也就是經過Channel attention 得到的特徵 F ，然後我們在經過一個Spatial Attention結構

多模態聯合學習模塊

首先每個單詞經過Glove 的embedding 後過一個LSTM 得到有上下文的單詞表示

Semantic Attention

對每個單詞表示和之前提取的視覺特徵Vf進行 semantic attention，

先計算聯合特徵

計算每個單詞權重

得到單詞特徵加權和加權和表示語義特徵Sf

融合

然後我們將得到的語義特徵和視覺特徵拼接起來，用一個self-attention 進一步提取特徵，得到最後的特徵表示進行分類

總結

這篇文章還是寫的比較好的

效果提升我覺得首先在初步的提取部分視覺部分比較關鍵，說明說明：特徵提的好，效果沒煩惱
融合方面把單詞的特徵和視覺結合在一起，但是又不是Attention 的做法，感覺理解還不是很透徹，找師兄討論一下

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

閱讀筆記 A Deep Multi-Level Attentive network for Multimodal Sentiment Analysis

前言

模型結構

視覺提取模塊

Channel Attention

Spatial Attention

多模態聯合學習模塊

Semantic Attention

融合

總結

Linux學習-第十週

3-10截斷事務日誌收縮日誌文件大小

mysql_real_connect: SSL connection error: unknown error number

交換機的密碼配置

基於Prometheus來做微服務監控，有多喫香？

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結