閱讀筆記-ShowandTell

摘要

提出了一個生成模型,cv+nlp,輸入是圖片,輸出是句子

衡量指標

  • BLEU-1
  • SBU

相關工作

  1. Kiros這個人用一個 只有前向傳播的神經網絡,根據輸入圖片預測下一個詞。把圖片的向量編碼和文本的向量編碼聯合在了一起。他們的結果好是經過了大量調參。
  2. Mao這個人,用了一個RNN,根據輸入圖片預測下一個詞

本文的工作用了一個更厲害的RNN,然後直接把圖片輸入到RNN裏面,

提出的模型

目標函數如下

mathθ=argmaxθ(I,S)logp(SI;θ)math \theta^{\star}=\arg \max _{\theta} \sum_{(I, S)} \log p(S | I ; \theta)

其中$ \theta 是模型參數,I$是圖片,是正確的轉義結果,就是最後的句子,長度可以不固定,所以比較常見的做法是使用鏈式法則對上式重寫:

mathlogp(SI)=t=0Nlogp(StI,S0,,St1)math \log p(S | I)=\sum_{t=0}^{N} \log p\left(S_{t} | I, S_{0}, \ldots, S_{t-1}\right)

爲了方便起見這裏去掉了依賴參數θ\theta

訓練結果,每一個樣本是一個(S,I)(S, I )即圖片-文本對,在整個訓練集上對上述loss的和進行優化,踩踏隨機梯度下降的方式

3.1 基於LSTM的句子生成器

只在第一次的時候,輸入圖片信息

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章