一、文章主要有兩個貢獻點
1、建立了基於對話的visual granding數據集
2、給出了基於深度學習的baseline model
二、數據集
這是數據集中的兩個例子,可以發現每一張圖有一個instance級別的標註,並且對應若干個問答形式的描述!任務的目的在於通過這些問答形式的描述,自動的確定所描述的目標物體是誰!
三、基礎模型
從圖中可以發現,模型的結構還是比較簡單的,有5類不通的輸入內容:1、context也就是全局上下文,也就是整張圖像;2、crop,也就是object的ROI圖像;3、spatial information,也就是座標文中採用了[左上角,右下角,中心點,尺寸];4、類別是one-hot向量,用了一個embed層轉換成dense category embedding;5、語義向量;
MLP:是隻有一個隱層,最後用softmax接交叉熵;
CNN:用於提取視覺特徵的是預訓練的VGG,圖像resize到224,從fc8提取向量;
上圖只是針對一個object,對於圖中存在這一系列object,需要如下圖所示的做法,然後用softmax選一個最大的概率:
四、實驗對比
這個表中給出了各種信息不同組合方式,給結果帶來的影響!