對話任務中的“語言-視覺”信息融合研究

目標導向的視覺對話是“視覺-語言”交叉領域中一個較新的任務,它要求機器能通過多輪對話完成視覺相關的特定目標。該任務兼具研究意義與應用價值。
日前,北京郵電大學王小捷教授團隊與美團AI平臺NLP中心團隊合作,在目標導向的視覺對話任務上的研究論文《Answer-Driven Visual State Estimator for Goal-Oriented Visual Dialogue-commentCZ》被國際多媒體領域頂級會議ACM MM2020錄用。
該論文分享了在目標導向視覺對話中的最新進展,即提出了一種響應驅動的視覺狀態估計器(Answer-Driven Visual State Estimator,ADVSE)用於融合視覺對話中的對話歷史信息和圖片信息,其中的聚焦注意力機制(Answer-Driven Focusing Attention,ADFA)能有效強化響應信息,條件視覺信息融合機制(Conditional Visual Information Fusion,CVIF)用於自適應選擇全局和差異信息。該估計器不僅可以用於生成問題,還可以用於回答問題。在視覺對話的國際公開數據集GuessWhat?!上的實驗結果表明,該模型在問題生成和回答上都取得了當前的領先水平。

原文鏈接:【https://www.infoq.cn/article/Qw3ztbFTMVmvDAmQ2BTy】。未經作者許可,禁止轉載。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章