摘要
提出了一个生成模型,cv+nlp,输入是图片,输出是句子
衡量指标
- BLEU-1
- SBU
相关工作
- Kiros这个人用一个 只有前向传播的神经网络,根据输入图片预测下一个词。把图片的向量编码和文本的向量编码联合在了一起。他们的结果好是经过了大量调参。
- Mao这个人,用了一个RNN,根据输入图片预测下一个词
本文的工作用了一个更厉害的RNN,然后直接把图片输入到RNN里面,
提出的模型
目标函数如下
其中$ \theta I$是图片,是正确的转义结果,就是最后的句子,长度可以不固定,所以比较常见的做法是使用链式法则对上式重写:
为了方便起见这里去掉了依赖参数
训练结果,每一个样本是一个即图片-文本对,在整个训练集上对上述loss的和进行优化,踩踏随机梯度下降的方式
3.1 基于LSTM的句子生成器
只在第一次的时候,输入图片信息