【文章閱讀visual granding】GuessWhat?! Visual object discovery through multi-modal dialogue

原創

Hi_AI

2020-06-11 19:01

一、文章主要有兩個貢獻點

1、建立了基於對話的visual granding數據集

2、給出了基於深度學習的baseline model

二、數據集

這是數據集中的兩個例子，可以發現每一張圖有一個instance級別的標註，並且對應若干個問答形式的描述！任務的目的在於通過這些問答形式的描述，自動的確定所描述的目標物體是誰！

三、基礎模型

從圖中可以發現，模型的結構還是比較簡單的，有5類不通的輸入內容：1、context也就是全局上下文，也就是整張圖像；2、crop，也就是object的ROI圖像；3、spatial information，也就是座標文中採用了[左上角，右下角，中心點，尺寸];4、類別是one-hot向量，用了一個embed層轉換成dense category embedding；5、語義向量；

MLP：是隻有一個隱層，最後用softmax接交叉熵；

CNN：用於提取視覺特徵的是預訓練的VGG，圖像resize到224，從fc8提取向量；

上圖只是針對一個object，對於圖中存在這一系列object，需要如下圖所示的做法，然後用softmax選一個最大的概率：

四、實驗對比

這個表中給出了各種信息不同組合方式，給結果帶來的影響！

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

【文章閱讀visual granding】GuessWhat?! Visual object discovery through multi-modal dialogue

使用c#強大的表達式樹實現對象的深克隆之解決循環引用的問題

痞子衡嵌入式：恩智浦i.MX RT1xxx系列MCU啓動那些事（12.A）- uSDHC eMMC啓動時間(RT1170)

GPT-4o 引領人機交互新風向，向量數據庫賽道沸騰了

本地SSL證書過期輸入命令在IIS自動生成

.NET週刊【5月第2期 2024-05-12】

【文章閱讀】The Devil is in the Decoder【計算機視覺中的上採樣方式-6種】

【姿態估計文章閱讀】Structured Feature Learning for Pose Estimation

【姿態估計文章閱讀】Human Pose Estimation with Iterative Error Feedback【這篇文章看的雖然有點迷糊，但是最後有一點很重要，自適應scale】

【姿態估計文章閱讀】PifPaf: Composite Fields for Human Pose Estimation

【文章解讀】FreeAnchor: Learning to Match Anchors for Visual Object Detection

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結