阅读笔记-ShowandTell

摘要

提出了一个生成模型,cv+nlp,输入是图片,输出是句子

衡量指标

  • BLEU-1
  • SBU

相关工作

  1. Kiros这个人用一个 只有前向传播的神经网络,根据输入图片预测下一个词。把图片的向量编码和文本的向量编码联合在了一起。他们的结果好是经过了大量调参。
  2. Mao这个人,用了一个RNN,根据输入图片预测下一个词

本文的工作用了一个更厉害的RNN,然后直接把图片输入到RNN里面,

提出的模型

目标函数如下

mathθ=argmaxθ(I,S)logp(SI;θ)math \theta^{\star}=\arg \max _{\theta} \sum_{(I, S)} \log p(S | I ; \theta)

其中$ \theta 是模型参数,I$是图片,是正确的转义结果,就是最后的句子,长度可以不固定,所以比较常见的做法是使用链式法则对上式重写:

mathlogp(SI)=t=0Nlogp(StI,S0,,St1)math \log p(S | I)=\sum_{t=0}^{N} \log p\left(S_{t} | I, S_{0}, \ldots, S_{t-1}\right)

为了方便起见这里去掉了依赖参数θ\theta

训练结果,每一个样本是一个(S,I)(S, I )即图片-文本对,在整个训练集上对上述loss的和进行优化,踩踏随机梯度下降的方式

3.1 基于LSTM的句子生成器

只在第一次的时候,输入图片信息

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章