推理論文彙總學習

Joint Commonsense and Relation Reasoning for Image and Video Captioning [AAAI2020][北理工&阿里]
任務:Image/Video Captioning
解決問題:當前基於scene graph的方法,往往依賴於object detection的效果,當面臨detection瓶頸,比如:遮擋,小物體,長尾效應等,就會大大損害視覺文本描述的效果。
本文貢獻:提出一種聯合常識與關係推理的方法來挖掘先驗知識,先驗知識的來源是VG,能有效地識別那些難以檢測甚至未在圖像/視頻裏面出現過的物體,並且緩解了那種detector預定義好的object/relationship詞與目標詞語義不一致的問題。
方法圖:
在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章