知識驅動的視覺理解論文一覽

原創

何莫道

2021-03-23 13:18

Visual Relationship Detection with Language Priors 2016

visual relationship detection領域的開山之作，檢測和定位圖上的多對object，然後分別對每一對object的交互關係（predicate）進行分類。

Scene Graph Generation by Iterative Message Passing 2017

利用場景圖對對象和關係進行建模。

Visual Genome ：Connecting Language and Vision Using Crowdsourced Dense Image Annotations 2017

PaStaNet：Toward Human Activity Knowledge Engine 2020

利用part級別的動作狀態（part states）進行行爲理解，

A Hierarchical Approach for Generating Descriptive Image Paragraphs 2017

這篇文章提出了一種結構化模型去生成圖像段落描述。文章首先利用區域生成網絡 (RegionProposal Network)進行區域檢測，並將檢測到的區域投影到卷積特徵圖中，通過插值並通過全連接層和最大池化生成一個區域特徵向量，該向量作爲句子RNN和詞RNN兩層層次循環網絡（Hierarchical Recurrent Networks）的輸入並生成對圖像的描述段落。

Deep Reasoning with Knowledge Graph for Social Relationship Understanding 2018

利用了一個圖推理模型（Graph Reasoning Model，GRM），由該模型結合門控圖神經網絡（Gated Graph Neural Network，GGNN）對社會關係進行處理。對社會關係的推理可以作爲其他多種任務的輔助，如多目標追蹤，人類軌跡預測，羣體行爲分析。GRM首先根據圖上人物區域的特徵來初始化關係節點，然後用預先訓練的Faster-RCNN探測器搜索圖像中的語義對象，並提取其特徵，初始化相應的對象節點；之後利用門控圖神經網絡GGNN負責計算節點特徵，並結合圖注意力機制幫助理解社會關係。

Detecting and Recognizing Human-Object Interactions 2018

檢測人和物體的交互（interaction）定位和人交互的物體的位置並通過人和物來預測後面的動作

Object Detection Meets Knowledge Graphs 2017

引入外部知識庫來進行輔助目標檢測。

The More You Know: Using Knowledge Graphs for Image Classification 2016

應用知識圖譜形式的結構化先驗知識到圖像分類中，表明利用結構化先驗知識可以提高圖像分類的性能。

Something-Else: Compositional Action Recognition With Spatial-Temporal Interaction Networks 2020

用於識別訓練集沒有的，對操作物體進行替換的動作

I Know the Relationships: Zero-Shot Action Recognition via Two-Stream Graph Convolutional Networks and Knowledge Graphs 2019

Action Genome: Spatio-temporal Scene Graphs 2020

Rethinking Knowledge Graph Propagation for Zero-Shot Learning 2019

Videos as space-time region graphs.

Learning to Compare: Relation Network for Few-Shot Learning 2018

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

知識驅動的視覺理解論文一覽

如何在低代碼平臺中引用 JavaScript ？

探究職業發展的關鍵：能力模型解讀

高效率使用windows

如何使用 JavaScript 獲取當前頁面幀率 FPS

工程款拖欠，農民工怎麼了？就得一直忍着委屈求全嗎？

HarmonyOS 實現下拉刷新，上拉加載更多

語音信號處理中的“窗函數”

智能決策新時代：可視化大屏是否能夠超越傳統白板？

解密Prompt系列28. LLM Agent之金融領域摸索：FinMem & FinAgent

分享幾個.NET開源的AI和LLM相關項目框架

變分自編碼器VAE的由來和簡單實現(PyTorch)

知識驅動的視頻理解論文一覽

知識驅動的視覺理解論文一覽

小樣本學習的定義

STGAN: A Unified Selective Transfer Network for Arbitrary Image Attribute Editing 閱讀筆記和pytorch代碼解讀

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結