論文-《Answer Them All! Toward Universal Visual Question Answering Models》筆記

重點翻譯拓展

論文下載

摘要:

Visual Question Answering (VQA) research is split into two camps: the first focuses on VQA datasets that require natural image understanding and the second focuses on synthetic datasets that test reasoning. A good VQA algorithm should be capable of both, but only a few VQA algorithms are tested in this manner. We compare five state-of- the-art VQA algorithms across eight VQA datasets covering both domains. To make the comparison fair, all ofthe models are standardized as much as possible, e.g., they use the same visual features, answer vocabularies, etc. We find that methods do not generalize across the two domains. To address this problem, we propose a new VQA algorithm that rivals or exceeds the state-of-the-art for both domains.

        VQA研究主要分爲兩大陣營:一是針對真實數據集圖像的理解,二是對合成數據集的推理測試。但是發現很少有算法能夠兼顧這兩個方面。因此作者提出一個新的VQA算法,旨在能夠很好的應用在兩個領域。

 

背景:

介紹:

        VQA要求模型能夠理解和推理視覺語言概念來回答和圖像有關的開放式問題,但是現在的算法很難做到這一點,大部分都利用偏差和圖像問題間的表面關係進行推理,而沒有真正理解視覺內容。其中VQAv1數據集的偏差比較典型,使用“yes”回答這種判斷類問題可以達到71%的準確率。爲了解決這個問題,很多數據集都做了努力,VQAv2數據集針對每一個問題都設置了不同的圖片和不同的回答;TDIUC分析了多種問題和罕見答案的泛化性;CVQA測試了概念語義合成性;VQACPv2測試了當訓練數據和測試數據不同分佈條件下的性能。儘管以上做法在真實數據集上減少了偏差,但是還是不能嚴格的執行測試推理。因此合成數據集應運而生,設計了一系列需要多步推理才能回答的具有挑戰性的問題,以此來評估算法的健壯性。好的算法需要在這兩個領域同時有高的性能,然而,幾乎最近所有的研究都只涉及其中一個領域。實驗中用到的數據集:


 主要貢獻:

        1. We perform a rigorous comparison of five state-of-the- art algorithms across eight VQA datasets, and we find that many do not generalize across domains.在八個數據集上對五個最先進的算法進行比較,發現許多算法不能在兩個領域同時表現出較好的泛化性。
        2. Often VQA algorithms use different visual features and answer vocabularies, making it difficult to assess performance gains. We endeavor to standardize the components used across models, e.g., all of the algoithms we compare use identical visual features, which required elevating the methods for synthetic scenes to use region proposals.爲了更好的評估性能,進行標準化,比如所有的模型都使用相同的視覺特徵。
        3. We find that most VQA algorithms are not capable of understanding real-word images and performing compositional reasoning. All of them fare poorly on generalization tests, indicating that these methods are still exploiting dataset biases.發現大多數VQA算法不能對真實圖片很好的理解和合成推理。
        4. We describe a new VQA algorithm that rivals state- of-the-art methods on all datasets and performs best overall.提出新的算法,可以與最先進的算法相媲美。

 

相關工作:

VQA數據集:

        VQAv1/VQAv2,VQAv1是最早的數據集之一,有很多種語言偏差,包括一些問題和某特謝頂的回答有關,VQAv2通過對問題收集不同的圖片和回答減小了上述VQAv1的語言偏差,但是其餘的一些偏差仍然存在,比如推理類問題比檢測類問題少。

        TDIUC爲了解決人工提問造成的偏差,將問題分成12類。

        CVQA是對VQAv1的再分解,可以測試訓練集中沒有出現過的概念。

        VQACPv2是對VQAv2的再分解,使每個類型的問題在訓練集和測試集上都有不同的分佈。

        CLEVR使合成數據集,需要進行一系列的推理獲得答案,這些問題是由程序生成的,而其中的CLEVR-Humans數據集的問題是由人工在合成場景下生成的。

        CLEVR-CoGenT測試未知名詞的處理和舊名詞的記憶力。

       VQAv1和VQAv2很難評估算法的推理能力,CVQA和VQAPv2解決了這一問題,但是合成數據集又缺乏複雜性和多樣性。真實數據集和合成數據集使互補的,好的算法需要在這兩個領域同時具有高的性能。

VQA算法:

        許多算法都是在真實數據集上提出來的,包括貝葉斯方法(Bayesian approaches),空間注意力方法(spatial attention),合成方法(compositional approaches),雙線性池化方法(bilinear pooling schemes),其中空間注意力方法使用最廣泛,因此評估了UpDo,QCG,BAN方法。同樣還有許多方法是基於合成數據集提出來的,這些算法更強調推理學習,主要包括模塊化網絡(modular networks),隱士組合規則(compositional rules implicitly),關係網絡(relational networks)等。這裏評估了RN和MAC方法。

        通過實驗,發現這些方法都只能再真實數據集或者合成數據集的其中一個又較好的應用,沒有兼顧兩者的,並且有很多方法沒有測試當初聲稱的良好性能,因此作者提出了一個新方法來兼顧兩個領域。

 

模型方法:

REMAN VQA模型(The RAMEN VQA Model We):

主要模型:

        作者提出了一個簡單的循環聚合多模態嵌入網絡,旨在適應於複雜的真實圖像和需要較多推理的合成圖像上。

        早期視覺語言特徵的融合(Early fusion of vision and language features) 將空間定位的視覺特徵和問題特徵串聯起來,幫助提高合成推理能力。

        通過共享映射學習雙模態池化(Learning bimodal embeddings via shared projections)通過共享網絡串聯視覺和問題特徵,幫助學習視覺和文本特徵間的內部關係。

        雙模信息的遞推集合(Recurrent aggregation of the learned bimodal embeddings)通過雙向門控單元來聚合雙模態嵌入,以捕獲雙模態嵌入之間的相互關係。

         RAMEN的輸入是一個問題嵌入q和N個候選區域ri,ri包含了視覺特徵和空間位置信息。RAMEN首先對ri和q進行串聯,接下來進行批正則化(batch normalization):

         將生成的N個ci傳入殘差網絡連接的多層感知機(MLP),生成N個雙模態嵌入bi,最後對每個bi進行串聯,通過函數A得到RAMEN嵌入a送到分類器,其中A基於雙向門控單元建模。

模型細節(Implementation Details):

        輸入表示(Input Representation):將問題表示爲300維的嵌入,通過預訓練好的GloVe向量進行初始化,再經過GRU獲得一個1024維的問題嵌入q。ri由視覺特徵和空間信息組成,其中使用自底向上機制生成2048維的CNN視覺特徵,空間信息是對每個候選區域進行編碼,生成16*16的(x,y)座標,最後展成512維度的向量。

        模型配置(Model Configuratio):投影F通過一個包含1024個單元的4層MLP建模,然後經過一個swish非線性激活函數,其中的第2,3,4層有殘差連接。聚合器A是一個單層雙向門控單元,包含了一個1024維的隱藏狀態,因此對前饋和後饋狀態進行連接生成了2048維的隱藏狀態。最後再通過一個2048維的全連接層,進入分類層。

        訓練細節(Training Details):RAMEN訓練在Adamax上,採用漸進學習率,前4個epoch,學習率爲2.5 ∗ epoch ∗ 10−4,5-10epoch爲5 ∗ 10−4,最後以0.25的衰減率,每2個epoch衰減一次。

VQA模型的評估(VQA Models Evaluated):

        自底向上機制和自頂向下機制(Bottom-Up-Attention and Top-Down (UpDn)):混合了自底向上和自頂向下的注意力機制,自底向上機制通過Faster R-CNN獲得候選區域,自頂向下機制對候選區域預測一個注意力分數。

        問題條件圖(Question-Conditioned Graph (QCG)):將圖像表示爲圖表,圖表的將自底向上生成的候選區域作爲圖表的節點,邊是和問題有關的區域之間的相互作用。

        雙線性注意力網絡(Bilinear Attention Network (BAN)):通過考慮所有候選區域和所有問題單詞之間的交互混合視覺和文本形態。

        關聯網絡(Relation Network (RN)):對每一個候選區域對進行嵌入,並對N^2個嵌入對加和生成一個矢量,這個矢量表示物體間的關聯。

        記憶、注意力、合成網絡(Memory, Attention and Composition (MAC)):使用一個計算單元,自動學習基於注意力的推理能力,每一個MAC單元都包含一個控制狀態,表示推理操作,還有一個記憶狀態,用來存儲推理操作的結果。

 

實驗數據:

不同數據集上不同模型的綜合表現:

        RAMEN模型性能全部爲第一或者第二,平均性能居於第一位。

 不同模型在三種評價指標和TDIUC數據集上的表現:

        RAMEN性能都居於第一位。

 不同模型在CLEVR數據集不同類型問題下的表現:

        這裏邊MAC模型表現得性能最好,其次是RAMEN模型,其餘模型性能一般或者較差。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章