文章介绍
这周读的是《Categorizing and Inferring the Relationship between the Text and Image of Twitter Posts》这篇文章,发表于ACL2019会议上,并且做了oral talk。文章主要做的工作如下:
- 使用推特提供的api从推特获取了大约5000条包含图文信息的数据;并收集了他们的人口统计学数据
-
针对数据进行了标注,标注内容是图文信息是否相关,并定义了四种分类,如下:文本可以表示图片;文本不能表示图片;图像增加了推特的含义;图像没有增加推特含义;组合成一个四分类问题
- 在此数据集基础上分别使用不同的数据和方法进行实验
- 数据集已经公布在github上:https://github.com/danielpreotiuc/text-image-relationship/
作者将该任务分解为两个子任务:第一个任务为文本任务,关注的是文本和图像之间是否存在语义重叠;第二项任务关注的是图像在推特语义中的作用,目的是识别图像内容是否对推特超出文字的信息做出了贡献。
方法介绍:
实验时主要使用了以下数据:
- 用户的人口统计学数据(性别、年龄、教育程度、年收入);
- 推特元数据(包括数量、follower的数量,朋友);
- 基于文本的数据;
- 基于图像的数据;
- 基于文本和图像的数据;
在使用前两类数据时,主要是使用的传统的机器学习方法,做了简单的逻辑回归,区别只是使用的数据不同;
在使用基于文本的数据时,使用了三种方法:
- 浅层特征:我们提取注入标点符号,@,引用等元素的数量作为特征进行逻辑回归
- 词袋模型:我们使用词袋模型进行逻辑回归,分别使用一元和二元的词袋模型进行逻辑回归
- LSTM模型:使用LSTM进行预测,200维的词向量表示(在20亿条推特上预训练好的),然后是隐层(64个units和0.4的dropout),使用adam优化最小交叉熵函数
在使用基于图像的数据时,主要是基于google的inceptionnet进行试验:
- 直接使用在imagenet上预测好的模型,提取特征,然后输入一个逻辑回归分类器,训练时只调整分类器的参数
- 建立端到端的模型,使用预训练好的inceptionnet加上全连接层进行预测,微调原来的模型参数
在使用基于文本加图像的数据时,使用了集成学习和其他的方式进行,取得了最好的效果:
- 集成学习:使用集成学习的方式将基于文本的和以及图像的结果结合起来;将两种模式的信息结合起来的一个简单方法是建立一个集成分类器。这是通过一个具有两个特性的逻辑回归模型实现的单词文本模型的预测类概率和调整后的InceptionNet模型的预测类概率。该模型的参数通过对训练数据的交叉验证和类似於单个模型的分割来调整。
- LSTM+InceptionNet:将LSTM和inceptionnet的最后的输出拼接后,输入全连接层(一个隐层64个单元),使用adam进行优化
结果介绍
从下图中可以看出,此方法对于预测文本图像之间的关系效果并不算好,对于一个四分类问题只到了44%。