【文章閱讀visual granding】GuessWhat?! Visual object discovery through multi-modal dialogue

一、文章主要有兩個貢獻點

      1、建立了基於對話的visual granding數據集

      2、給出了基於深度學習的baseline model

二、數據集

這是數據集中的兩個例子,可以發現每一張圖有一個instance級別的標註,並且對應若干個問答形式的描述!任務的目的在於通過這些問答形式的描述,自動的確定所描述的目標物體是誰!

三、基礎模型

從圖中可以發現,模型的結構還是比較簡單的,有5類不通的輸入內容:1、context也就是全局上下文,也就是整張圖像;2、crop,也就是object的ROI圖像;3、spatial information,也就是座標文中採用了[左上角,右下角,中心點,尺寸];4、類別是one-hot向量,用了一個embed層轉換成dense category embedding;5、語義向量;

MLP:是隻有一個隱層,最後用softmax接交叉熵;

CNN:用於提取視覺特徵的是預訓練的VGG,圖像resize到224,從fc8提取向量;

上圖只是針對一個object,對於圖中存在這一系列object,需要如下圖所示的做法,然後用softmax選一個最大的概率:

四、實驗對比

這個表中給出了各種信息不同組合方式,給結果帶來的影響!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章