VQA+Visual Reasoning SOTA探索

2014-2019年VQA論文:https://heary.cn/posts/VQA-%E8%BF%91%E4%BA%94%E5%B9%B4%E8%A7%86%E8%A7%89%E9%97%AE%E7%AD%94%E9%A1%B6%E4%BC%9A%E8%AE%BA%E6%96%87%E5%88%9B%E6%96%B0%E7%82%B9%E7%AC%94%E8%AE%B0/

2020Mucko: Multi-Layer Cross-Modal Knowledge Reasoning for Fact-based Visual Question Answering

paper:https://arxiv.org/abs/2006.09073

code:https://github.com/astro-zihao/mucko

基於事實的視覺問題解答(FVQA)需要視覺內容之外的外部知識來回答有關圖像的問題,這對於實現一般的VQA來說是具有挑戰性但必不可少的。現有的FVQA解決方案的侷限性在於,它們無法精確選擇地共同嵌入各種信息,這會引入意料之外的噪音來推斷最終答案。如何獲取面向問題和信息互補的證據仍然是解決問題的關鍵挑戰。

在本文中,我們通過多模式異構圖來描述圖像,該圖包含與視覺,語義和事實特徵相對應的多層信息。在多層圖表示之上,我們提出了一種模態感知異構圖卷積網絡,以從不同層捕獲與給定問題最相關的證據。具體而言,模態內圖卷積從每個模態中選擇證據,而跨模態圖卷積則彙總了跨不同模態的相關信息。通過多次堆疊此過程,我們的模型執行迭代推理,並通過分析所有面向問題的證據來預測最佳答案。我們在FVQA任務上取得了最新的最新性能,並通過大量實驗證明了我們模型的有效性和可解釋性。

 

2020Cross-Modality Relevance for Reasoning on Language and Vision

paper:https://arxiv.org/abs/2005.06035

code:

這項工作解決了有關語言和視覺數據的學習和推理挑戰,涉及相關的下游任務,例如視覺問題解答(VQA)和視覺推理自然語言(NLVR)。我們設計了一個新穎的跨模式關聯模塊,該模塊在端到端框架中用於在目標任務的監督下學習各種輸入模式的組件之間的關聯表示,與僅重塑相比,它更可泛化爲未觀察到的數據原始表示空間。除了對文本實體和視覺實體之間的相關性進行建模之外,我們還對文本中的實體關係與圖像中的對象關係之間的高階相關性進行建模。我們提出的方法使用公共基準顯示了在兩種不同語言和視覺任務上的競爭表現,並改進了最新的出版成果。通過NLVR任務學習輸入空間的對齊方式及其相關性表示,可以提高VQA任務的訓練效率。 

 

2020Revisiting Modulated Convolutions for Visual Counting and Beyond

paper:https://arxiv.org/abs/2004.11883 (FackbookAI)

本文針對視覺計數,其中設置是在給定輸入查詢(例如問題或類別)的情況下估計自然圖像中出現的總數。現有的大多數計數工作都集中在顯式的符號模型上,該模型反覆檢查相關區域以得出最終數字,從而模仿了專門用於計數的直觀過程。但是,這樣的模型在計算上可能是昂貴的,並且更重要的是限制了它們對其他推理任務的推廣。在本文中,我們提出了一種簡單而有效的視覺計數替代方法,方法是重新審視融合查詢和圖像的調製卷積。通過將查詢表示與該殘留瓶頸的輸入卷積特徵圖融合,可以在每個瓶頸的基礎上執行調製。因此,我們將我們的方法稱爲MoVie,是Modulated conVolutional瓶頸的簡稱。值得注意的是,MoVie隱式地和整體地進行計數,並且在推理過程中只需要一個前向通過。然而,MoVie展示了強大的經驗表現。

數據集:針對多個計數特定的VQA數據集:HowMany-QA、TallyQA此外 

               適用於常見對象計數:COCO

                改善通用VQA​​模型與數字有關的問題:CLEVR、GQA

表明調製卷積作爲一種機制可以用於除計數之外的更一般的推理任務

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章