Baby Talk and Neural Baby Talk

兩篇關於用類似完形填空方式做image captioning的文章。

  • 1.Baby Talk: Understanding and Generating Image Descriptions[CVPR2011]。
  • 2.Neural Baby Talk[CVPR2018]。code

文章列出了傳統baby talk, neural baby talk和主流encoder-decoder三種生成圖像描述方法的示意圖。
Examples
這個方法主要的思路是有現有的基於attention的方法生成一個sentence,這個sentence叫做template,然後利用Stanford lemmatization toolbox去判斷生成sentence中的visual word,最後再通過計算生成這個visual word過程中的attention map多對應bounding box與faster RCNN中所對應的bounding box之間的IOU,IOU大於0.5就選擇faster RCNN檢測對應的class即爲visual word,否則選擇原LSTM生成的visual word,得到visual word後,再判斷visual word的單複數和細粒度的類別,文章的framework如下所示。
framework

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章