深度學習之image-caption(三)storyteller

論文:Contextualize, Show and Tell: A Neural Visual Storyteller      arxiv:1806.00738

模型:

基於NIC模型,encoder增加LSTM網絡結構,decoder採用獨立的LSTM爲每張圖片產生caption

encoder的LSTM用於生成各圖片相聯繫的上下文向量Z

上下文向量Z初始化各LSTM解碼器

將各個圖片的image-embedding產生的向量分別輸入decoder獨立的LSTM,並生成描述

結果示例:產生有上下文關係的caption

 

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章