Hierarchical Question-Image Co-Attention for Visual Question Answering論文筆記

1.Abstract

作者認爲之前的工作集中在尋找圖片中的重點區域,但是也應該尋找問題中的重要的單詞,所以提出了共同注意力(co-attention),目的是共同的推理圖片和問題的注意力。

2.Introduction

作者提出的共同注意力具有以下兩種特徵:

  • Co-Attention 與之前的工作不同,作者的提出的模型是對稱的,通過圖片表示可以引導產生問題的注意力,問題表示可以引導產生圖片的注意力。
  • Question Hierarchy 構建了一個層次結構,它在三個級別上共同參與圖像和問題:(a)單詞級別,(b)短語級別和(c)問題級別。 在單詞級別,通過嵌入矩陣將單詞嵌入向量空間。 在短語級別,使用一維卷積神經網絡捕獲單字組,二元組和三字組中包含的信息。具體地說,將單詞表示與各種支持的時間過濾器進行卷積,然後將各種n-gram響應組合成一個短語級表示。在問題層,我們使用遞歸神經網絡對整個問題進行編碼。對於該層次結構中問題表示的每一層,我們構造聯合問題和圖像共同注意映射,然後遞歸地組合這些映射,最終預測答案的分佈。

3.Method

3.1 Notation

問題有T個單詞,表示爲Q=\{q_1,\dots,q_T\},其中q_t代表第t個單詞的特徵向量,q_t^w,q_t^p,q_t^s分別爲t位置的單詞表示,短語表示和問題表示。圖片表示爲V=\{v_1,\dots,v_N\},其中v_n表示在空間位置n的特徵向量。每一層的圖像和問題的共同注意力表示爲\widehat{v}^r\widehat{q}^r,其中r\in \{w,p,s\}。不同單元的權重表示爲W,帶不用的下標,省略偏置b。

3.2 Question Hierarchy

對於問題中的單詞Q=\{q_1,\dots,q_T\},首先映射到向量Q^w=\{q_1^w,\dots,q_T^w\},爲了計算短語特徵,在單詞嵌入向量上應用一維卷積。具體地說,在每個詞的位置,我們用三個窗口大小的過濾器計算詞向量的內積:一元圖、二元圖和三元圖。對於第t個字,窗口大小爲s的卷積輸出由下式給出:

其中W_c^s是權重參數,單詞級特徵Q^w在進入二元和三元卷積之前被適當地填充0,以保持卷積後序列的長度。得到卷積結果之後,然後在每個單詞位置對不同的n-grams應用最大池來獲得短語級特徵

作者的池化方法不同於在以前的方法,在每個時間步適應性地選擇不同的元特徵,同時保持原始序列長度和順序。 最大池化之後使用LSTM對q_t^p進行編碼。 相應的問題級特徵q_t^s是時間t的LSTM隱藏向量。如下圖左側所示

3.3 Co-Attention

作者提出了兩種在圖像和問題注意圖生成順序上不同的共同注意機制。第一種機制,稱之爲平行共同注意,同時產生圖像和問題注意。第二種機制,稱之爲交替的共同注意,在生成圖像和問題注意之間依次交替。這些共同注意機制在問題層級的所有三個級別上都執行。

Parallel Co-Attention 

並行的共同關注同時關注圖像和問題。通過計算所有圖像位置和問題位置對的圖像和問題特徵之間的相似性來連接圖像和問題。具體來說,給定一個圖像特徵圖V\in \mathbb{R}^{d\times N },問題表示Q\in \mathbb{R}^{d\times T },關聯矩陣C\in \mathbb{R}^{T\times N }

其中W_b\in \mathbb{R}^{d\times d}是權重,在計算了這個相似性矩陣之後,計算圖像(或問題)注意力的一種可能方式是簡單地最大化其他模態的位置上的相似性,比如a^v[n]=max_i(C_{i,n})a^q[t]=max_j(C_{t,j}),作者沒有選擇最大激活,而是發現,如果將這種相似性矩陣視爲一種特徵,並通過以下方式學習預測圖像和問題注意圖,性能會得到提高

其中W_v,W_q\in \mathbb{R}^{k\times d},w_{hv},w_{hq}\in \mathbb{R}^k是權重參數,a_v\in \mathbb{R}^N,a_q\in \mathbb{R}^T是每個區域v_n,q_t的注意力概率,相似性矩陣C將問題注意空間轉換爲圖像注意空間(反之亦然)。基於上述注意權重,圖像和問題注意向量被計算爲圖像特徵和問題特徵的加權和

Alternating Co-Attention 

在這種注意機制中,依次交替產生圖像和問題注意。簡而言之,這包括三個步驟:1)將問題總結成一個向量q;2)基於問題q得到圖像的注意力;3)基於關注的圖像特徵得到問題的注意力。

定義一個注意力操作\widehat{x}=A(X;g),將圖像特徵(問題特徵)X和從問題(圖像)表示中提取的引導注意力g作爲輸入,得到想要的圖像(問題)向量。

其中1是一個所有元素都是1的向量, W_x,W_g\in \mathbb{R}^{k\times d},w_{hx}\in \mathbb{R}^k是參數,a^x是特徵X的注意力權重,在交替注意的第一步,X=Q,g=0,第二步時,X=V,這時的引導注意力g是第一步\widehat{s}的中間參與問題特徵,最後,使用了圖像特徵\widehat{v}爲導向來得到問題。X=Q,g=\widehat{v}

3.4 Encoding for Predicting Answers

我們把VQA當作一項分類任務。我們根據共同參與的圖像和問題特徵從所有三個層面預測答案。我們使用多層感知器(MLP)遞歸編碼注意特徵。

4 Experiment 

 

在COCO-QA數據集上可視化圖像和問題共同關注圖。從左到右:原始圖像和問題對、單詞級共同注意圖、短語級共同注意圖和問題級共同注意圖。對於可視化,圖像和問題關注都是按比例的(從紅色:高到藍色:低)。 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章