阅读笔记 A Deep Multi-Level Attentive network for Multimodal Sentiment Analysis

原創

2021-01-30 10:22

前言

论文讲的是两个模态的情感分析，作者提出一个网络，此网络通过在多个层次上引入注意力，从视觉和文本中产生区分性特征。通过利用视觉数据中的通道channel注意力和空间注意力来获得双注意力的视觉特征。

总体来说

用两个注意力 channel attention 和 spatial attention 注意力提高CNN 采集图像特征能力
提出 语义注意力 模拟单词的图像区域与语义之间的相关性，也就是一个JOINT ATTENDED MULTIMODAL LEARNING的过程（联合多模态学习)

模型结构

从图可以看出来，模型结构不算复杂

两模态
视觉部分用两个Attention
文本部分先用LSTM 提取然后加入视觉信息，最终来分类

下面就分两块来说，一是视觉提取模块，二是多模态融合（学习）模块

视觉提取模块

视觉提取模块及结构如下图

M表示用Inception V3 得到图片的特征

AP 表示 average pooling

element-wise 表示

Channel Attention

这个在CV 上的物体检测上用的比较多，但是在情感分析方面，大家忽略了channel 维度的Attention，作者在这里用到，其结构如下图，比较简单

用Inception V3 得到图片的特征，然后过一个channel attention ，其公式是

Spatial Attention

在上一步我们得到 Ac 也就是经过Channel attention 得到的特征 F ，然后我们在经过一个Spatial Attention结构

多模态联合学习模块

首先每个单词经过Glove 的embedding 后过一个LSTM 得到有上下文的单词表示

Semantic Attention

对每个单词表示和之前提取的视觉特征Vf进行 semantic attention，

先计算联合特征

计算每个单词权重

得到单词特征加权和加权和表示语义特征Sf

融合

然后我们将得到的语义特征和视觉特征拼接起来，用一个self-attention 进一步提取特征，得到最后的特征表示进行分类

总结

这篇文章还是写的比较好的

效果提升我觉得首先在初步的提取部分视觉部分比较关键，说明说明：特征提的好，效果没烦恼
融合方面把单词的特征和视觉结合在一起，但是又不是Attention 的做法，感觉理解还不是很透彻，找师兄讨论一下

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

阅读笔记 A Deep Multi-Level Attentive network for Multimodal Sentiment Analysis

前言

模型结构

视觉提取模块

Channel Attention

Spatial Attention

多模态联合学习模块

Semantic Attention

融合

总结

EXCEL中下拉菜单中添加新选项或者删除选项

号称能打败MLP的KAN到底行不行？数学核心原理全面解析

Git使用经验总结5-修改提交信息

Python 爬虫：Spring Boot 反爬虫的成功案例

京东科技数字化营销能力的演进与最佳实践| 京东云技术团队

同事使用 insert into select 迁移数据，开开心心上线，上线后被公司开除！

Java中止线程的方式

[转帖]Oracle Exadata 学习笔记之核心特性Part1

《最新出炉》系列入门篇-Python+Playwright自动化测试-43-分页测试

HTTP协议相关文档

Linux學習-第十週

3-10截斷事務日誌收縮日誌文件大小

mysql_real_connect: SSL connection error: unknown error number

交換機的密碼配置

基於Prometheus來做微服務監控，有多喫香？

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結