2020-07-02 CVPR2020 V&L論文討論（3）筆記

原創

2020-07-04 10:30

[1] Bi-directional Relationship Inferring Network for Referring Image Segmentation

盧湖川老師
已有方法：語言->視覺，沒有視覺->語言。（->：指導）

[2] A Real-Time Cross-modality Correlation Filtering Method for Referring Expression Comprehension

北航劉偲、中山李冠斌
現有方法：兩階段（生成proposals、選最優proposal）比較慢
將相關濾波引入跨模態領域，用language feature當做kernel，在image feature上做相關濾波，得到響應圖（bbox的中心），再回歸w和h。
像極了SiamRPN，只不過一個branch改成了另一個模態。

[3] Vision-Dialog Navigation by Exploring Cross-modal Memory

跨模態記憶問題？
導航：只基於對話歷史->加入視覺模塊

[4] VQA with No Questions-Answers Training

不用answer就可以訓練。
通過問題圖，生成問題，生成的問題的答案沒有意義。

[5] Referring Image Segmentation via Cross-Modal Progressive Comprehension

額，沒太聽懂。

[6] Local-Global Video-Text Interactions for Temporal Grounding

參考鏈接

[7] Hypergraph Attention Networks for Multimodal Learning

參考鏈接

總結

這次結束的超級快，一小時20分鐘。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

2020-07-02 CVPR2020 V&L論文討論（3）筆記

目錄

[1] Bi-directional Relationship Inferring Network for Referring Image Segmentation

[2] A Real-Time Cross-modality Correlation Filtering Method for Referring Expression Comprehension

[3] Vision-Dialog Navigation by Exploring Cross-modal Memory

[4] VQA with No Questions-Answers Training

[5] Referring Image Segmentation via Cross-Modal Progressive Comprehension

[6] Local-Global Video-Text Interactions for Temporal Grounding

[7] Hypergraph Attention Networks for Multimodal Learning

總結

使用c#強大的表達式樹實現對象的深克隆之解決循環引用的問題

free AI online tools All In One

痞子衡嵌入式：恩智浦i.MX RT1xxx系列MCU啓動那些事（12.A）- uSDHC eMMC啓動時間(RT1170)

linux安裝cuda和cudnn

Mellanox網卡開啓SR-IOV

模擬手機設備：使用 Playwright 實現移動端自動化測試

HTML 00 Tutorial

全面系統的AI學習路徑，幫助普通人也能玩轉AI

從零開始：使用 Playwright 腳本錄製實現自動化測試

uni-app實現上拉加載

2020年, VideoQA論文彙總

2020-07-07 CVPR2020 i3DV論文討論（3）筆記

2020北京智源大會圖神經網絡專題總結

2020-07-06 組會筆記

2020-07-02 CVPR2020 V&L論文討論（3）筆記

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

2020-07-02 CVPR2020 V&L論文討論（3） 筆記

目錄

[1] Bi-directional Relationship Inferring Network for Referring Image Segmentation

[2] A Real-Time Cross-modality Correlation Filtering Method for Referring Expression Comprehension

[3] Vision-Dialog Navigation by Exploring Cross-modal Memory

[4] VQA with No Questions-Answers Training

[5] Referring Image Segmentation via Cross-Modal Progressive Comprehension

[6] Local-Global Video-Text Interactions for Temporal Grounding

[7] Hypergraph Attention Networks for Multimodal Learning

總結

2020-07-02 CVPR2020 V&L論文討論（3）筆記