摘要
提出了一個生成模型,cv+nlp,輸入是圖片,輸出是句子
衡量指標
- BLEU-1
- SBU
相關工作
- Kiros這個人用一個 只有前向傳播的神經網絡,根據輸入圖片預測下一個詞。把圖片的向量編碼和文本的向量編碼聯合在了一起。他們的結果好是經過了大量調參。
- Mao這個人,用了一個RNN,根據輸入圖片預測下一個詞
本文的工作用了一個更厲害的RNN,然後直接把圖片輸入到RNN裏面,
提出的模型
目標函數如下
其中$ \theta I$是圖片,是正確的轉義結果,就是最後的句子,長度可以不固定,所以比較常見的做法是使用鏈式法則對上式重寫:
爲了方便起見這裏去掉了依賴參數
訓練結果,每一個樣本是一個即圖片-文本對,在整個訓練集上對上述loss的和進行優化,踩踏隨機梯度下降的方式
3.1 基於LSTM的句子生成器
只在第一次的時候,輸入圖片信息