論文:Contextualize, Show and Tell: A Neural Visual Storyteller arxiv:1806.00738
模型:
基於NIC模型,encoder增加LSTM網絡結構,decoder採用獨立的LSTM爲每張圖片產生caption
encoder的LSTM用於生成各圖片相聯繫的上下文向量Z
上下文向量Z初始化各LSTM解碼器
將各個圖片的image-embedding產生的向量分別輸入decoder獨立的LSTM,並生成描述
結果示例:產生有上下文關係的caption