兩篇關於用類似完形填空方式做image captioning的文章。
- 1.Baby Talk: Understanding and Generating Image Descriptions[CVPR2011]。
- 2.Neural Baby Talk[CVPR2018]。code
文章列出了傳統baby talk, neural baby talk和主流encoder-decoder三種生成圖像描述方法的示意圖。
這個方法主要的思路是有現有的基於attention的方法生成一個sentence,這個sentence叫做template,然後利用Stanford lemmatization toolbox去判斷生成sentence中的visual word,最後再通過計算生成這個visual word過程中的attention map多對應bounding box與faster RCNN中所對應的bounding box之間的IOU,IOU大於0.5就選擇faster RCNN檢測對應的class即爲visual word,否則選擇原LSTM生成的visual word,得到visual word後,再判斷visual word的單複數和細粒度的類別,文章的framework如下所示。