【论文阅读】Multi-Modal Sarcasm Detection 图文反讽识别

Multi-Modal Sarcasm Detection 图文反讽识别

题目:Multi-Modal Sarcasm Detection in Twitter with Hierarchical Fusion

发表会议/期刊: ACL2019

主要相关: 方面级情感分析+图文

反讽识别任务的目的是判断一段文档是否含有反讽表达

Conttrbutions:

将文本特征,图像特征,图像属性作为三种模态

提出一种多模态层次融合模型

① 首先提取图像特征和图像属性特征

② 再利用属性特征和双向LSTM网络来提取文本特征

③ 三种模态特征进行重构融合成一个特征向量来预测

验证了为了充分发挥图像的潜力,需要考虑图像属性——一种连接文本和图像之间的高层次抽象信息。

图像属性:由描述图像组成成分的若干词组成。

在这里插入图片描述

Approach:

(1)初步表示

① For 图片模态:

对于raw vector:使用一个预训练和微调的ResNet模型来获得图片的14*14区域向量Ii\

在这里插入图片描述

图片guidance vector:将原始向量平均

在这里插入图片描述

② For 图片属性模态

对于raw vector:使用另一个预训练和微调的ResNet-101模型来预测每个图片的5个属性,其GloVe embeddings被视为原始属性向量

在这里插入图片描述

图片guidance vector:将原始向量加权平均
原始属性向量 e(ai) 通过两层卷积网络得到注意力权重,用来重构得到guidance vector :Vattr

在这里插入图片描述

③ For 文本模态

使用双向LSTM来获得推特文本表示,得到的最终隐藏状态进行平均得到guidance vector:

在这里插入图片描述

(2)融合

① 早期融合:

在文本分类任务中,Bi-LSTM的初始状态通常设置为零,但可以注入多模态信息来促进对文本模态的理解。

非线性变换后的属性引导向量作为Bi-LSTM的初始状态。

曾尝试使用图片引导向量进行融合,但表现不好

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-DYNDRip0-1586179918711)(C:\Users\dell\AppData\Roaming\Typora\typora-user-images\1586141236228.png)]
在这里插入图片描述

② 表示融合

在低层次原始向量和高层次引导向量的帮助下重构特征向量

低层次原始向量:文本->最终时刻的隐藏状态ht

​ 图像->14*14的区域向量

​ 图像属性->5个属性的嵌入表示

在这里插入图片描述

将原始向量和引导向量通过一层卷积+非线性变化+卷积,在标准化后平均得到每个原始向量的权重,进而得到该模态下的特征表示

③ 模态融合

特征向量转换成定长的表示,采用两层前馈神经网络,计算各模态的注意力权值,将其作为定长特征向量的权重得到该模态下的最终单一向量

在这里插入图片描述

(3)分类

使用两层全连通神经网络作为分类层,隐含层的激活函数和输出层的激活函数分别是ReLu函数和sigmoid函数。损失函数是交叉熵
在这里插入图片描述

Results:

在这里插入图片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章