Abstract

在視覺問答(VQA)中，算法必須回答關於圖像的基於文本的問題。儘管自2014年末以來，VQA已經創建了多個數據集，但它們在內容和算法評估方式上都存在缺陷。結果，評估分數被誇大了，而且主要是通過回答更簡單的問題來決定的，這使得比較不同的方法變得很困難。在本文中，我們使用一個名爲任務驅動圖像理解挑戰(TDIUC)的新數據集來分析現有的VQA算法，該數據集有超過160萬個問題，分爲12個不同的類別。我們還引入了對給定圖像沒有意義的問題，以迫使VQA系統對圖像內容進行推理。我們提出新的評估方案，以彌補過度代表的問題類型，並使其更容易研究算法的優勢和弱點。我們分析了基線和最先進的VQA模型的性能，包括多模態緊緻雙線性池(MCB)、神經模塊網絡和循環回答單元。我們的實驗建立了注意力如何比其他類別更有助於某些類別，確定哪些模型比其他模型更有效，並解釋了簡單的模型(例如MLP)如何通過簡單地學習回答大的、簡單的問題類別來超越更復雜的模型(MCB)。

1. Introduction

在開放式視覺問題解答（VQA）中，算法必須對有關圖像的任意基於文本的問題產生答案[21，3]。 VQA是一個令人興奮的計算機視覺問題，它要求系統能夠執行許多任務。真正解決VQA將是人工智能的一個里程碑，並將極大地促進人機交互。但是，VQA數據集必須測試廣泛的能力，才能充分衡量進度。

VQA的研究始於2014年底，當時DAQUAR數據集已經發布[21]。包括DAQUAR在內，已經發布了六個主要的VQA數據集，並且算法得到了快速改進。在最受歡迎的數據集“ VQA數據集” [3]上，最好的算法現在達到了70％的準確性[5]（人類表現爲83％）。儘管這些結果令人鼓舞，但現有數據集在多種偏見方面存在嚴重問題。此外，由於現有數據集無法將實例分爲有意義的類別，因此比較各個算法的功能並不容易。例如，與回答需要空間推理的問題相比，一種方法在顏色問題上可能更勝一籌。由於顏色問題在數據集中更爲常見，因此，由於使用了評估指標，因此在空間推理方面表現出色的算法將無法獲得該功績的適當獎勵。

貢獻：我們的論文有四個主要目的，旨在更好地分析和比較VQA算法：1）我們創建了一個新的VQA基準數據集，其中根據其解決的任務將問題分爲12個不同的類別； 2）我們提出兩個新的評估指標，以補償數據集偏差的形式； 3）我們平衡是/否對象存在檢測問題的數量，以評估均衡分佈是否可以幫助算法更好地學習； 4）我們引入了荒謬的問題，這些問題迫使算法確定一個問題對於給定的圖像是否有效。然後，我們使用新的數據集重新訓練和評估基線和最新VQA算法。我們發現，我們提出的方法可以對VQA算法進行更細微的比較，並有助於我們更好地瞭解特定技術的優勢。此外，它還使我們能夠回答有關VQA算法的幾個關鍵問題，例如，“算法的泛化能力是否受到數據集中偏差的阻礙？”，“使用空間注意力是否有助於回答特定的問題類型”，“ VQA算法在回答不太常見的問題上有多成功？”和“ VQA算法能否區分真實問題和荒謬問題？”

2. Background

2.1. Prior Natural Image VQA Datasets

2014年至2016年間，已經發布了六個具有自然圖像的VQA數據集：DAQUAR [21]，COCO-QA [25]，FM-IQA [6]，VQA數據集[3]，Visual7W [35]和Visual Genome [ 18]。 FM-IQA需要人爲判斷，尚未得到廣泛使用，因此我們不再對其進行進一步討論。表1顯示了其他數據集的統計信息。在其他[13、34、29]之後，我們將包含自然圖像的VQA數據集部分稱爲COCO-VQA。詳細的數據集評論可以在[14]和[28]中找到。

前面提到的所有VQA數據集都是有偏差的.DAQUAR和COCO-QA很小，並且問題類型的種類有限。視覺基因組，Visual7W和COCO-VQA較大，但是它們存在一些偏差。偏見的形式既有問的各種問題，也有人們爲他們提供的答案。對於COCO-VQA，僅使用問題特徵進行訓練的系統即可達到50％的準確性[13]。這表明某些問題具有可預測的答案。如果沒有更細緻的分析，確定哪種類型的問題更依賴於圖像將是一項挑戰。對於使用Mechanical Turk製作的數據集，註釋者通常會詢問對象識別問題，例如“圖像中有什麼？”或“圖像中是否有大象？”。請注意，在後一個示例中，除非對象在圖像中，否則註釋者很少會問這種問題。在COCO-VQA上，以“是否存在”開頭的問題中有79％的答案是“是”。

2017年，引入了VQA 2.0 [7]數據集。在VQA 2.0中，對於兩個不同的圖像會詢問相同的問題，並且指示註釋者給出相反的答案，這有助於減少語言偏見。但是，除了語言偏見外，這些數據集在不同類型問題的分佈以及每種問題類型內答案的分佈方面也存在偏見。 VQA數據集使用的性能指標將每個測試實例的值均等（例如，簡單準確性）。儘管有些人確實爲基本問題類型計算了其他統計信息，但並未從這些子評分中計算出總體表現[3，25]。由於更容易產生偏見的問題類型也更加常見，這加劇了帶有偏見的問題。與以“ Is”和“ Are”開頭的問題相比，註釋者很少問“爲什麼”和“哪裏”開頭的問題。例如，在COCO-VQA上，“是/不是”問題的準確性提高15％將使整體準確性提高5％以上，但是正確回答所有“爲什麼/在何處”問題的準確性將僅提高4.1％[14]。由於現有評估指標無法正確解決這些偏差，因此在這些數據集上訓練的算法會學習利用這些偏差，從而導致在實際環境中部署時，系統運行不佳。

出於相關原因，過去十年中發佈的主要基準測試不使用簡單的準確性來評估圖像識別和相關的計算機視覺任務，而是使用諸如每類平均值的準確性等指標來補償不平衡的類別。例如，在Caltech-101 [4]上，即使使用了平衡的訓練數據，簡單的準確性也無法解決這樣一個事實，即某些類別比其他類別更容易分類（例如，面部和平面很容易且測試次數最多）圖片）。每類平均準確性通過要求系統在每個類別上都做得很好來彌補這一點，即使類別中測試實例的數量相差很大。

現有基準測試不需要報告不同問題類型的準確性。即使報告了問題，問題類型也可能過於粗糙而無用，例如，COCO-VQA中的“是/否”，“數字”和“其他”。爲了改善對VQA算法的分析，我們將問題分類爲有意義的類型，計算子分數，並將其納入我們的評估指標。

2.2. Synthetic Datasets that Fight Bias

先前的工作已經研究了VQA中的偏差並提出了對策。在[33]中，創建了陰和陽數據集來研究對卡通圖像具有相同數量的二進制（是/否）問題的影響。他們發現，很難從平衡的數據集中回答問題。這項工作意義重大，但僅限於是/否問題，其使用卡通圖像的方法無法直接擴展到真實世界的圖像。

本文的目標之一是確定算法可以輕鬆回答哪些類型的問題。在[1]中，提出了具有相似目標的SHAPES數據集。 SHAPES是一個小型數據集，由64個圖像組成，這些圖像是通過將彩色幾何形狀按不同的空間方向排列而組成的。每個圖像具有相同的244個“是/否”問題，導致15,616個問題。儘管SHAPES是重要的輔助評估，但僅憑它不足以測試VQA算法。 SHAPES的主要侷限性在於其所有圖像均爲2D形狀，不能代表真實世界的圖像。同樣，合成語言和基本視覺推理（CLEVR）[12]也建議使用3D渲染幾何對象來研究模型的推理能力。 CLEVR比SHAPES大，並使用3D渲染的幾何對象。除了形狀和顏色之外，它還爲對象增加了材質屬性。 CLEVR有五種類型的問題：屬性查詢，屬性比較，整數比較，計數和存在。

SHAPES和CLEVR都是專門爲組合語言方法量身定製的[1]，並且低估了視覺推理的重要性。例如，CLEVR問題“大球體上剩下的棕色金屬物體所剩圓柱體的大小是多少？”需要苛刻的語言推理能力，但是解析簡單的幾何對象只需要有限的視覺理解。與這三個綜合數據集不同，我們的數據集包含自然圖像和問題。爲了改進算法分析和比較，我們的數據集有更多（12）個明確定義的問題類型和新的評估指標。

3. TDIUC for Nuanced VQA Analysis

在過去兩年中，多個公開發布的數據集刺激了VQA研究。但是，由於評估指標存在偏差和問題，因此解釋和比較VQA系統的性能可能是不透明的。我們提出了一個新的基準數據集，該數據集明確地將問題分爲12個不同的類別。這樣一來，您就可以衡量每個類別中的性能，並瞭解對於當今最佳系統而言，哪種問題是容易的還是很難的。此外，我們使用評估指標來進一步補償偏差。我們將數據集稱爲“任務驅動圖像理解挑戰（TDIUC）”。表1和圖2分別顯示了該數據集的總體統計數據和示例圖像。

TDIUC有12種類型的問題被選擇來代表經典計算機視覺任務和新穎的高級視覺任務，這些任務需要不同程度的圖像理解和推理。問題類型爲：

1. Object Presence (e.g., ‘Is there a cat in the image?’)（是否有物體）
2. Subordinate Object Recognition (e.g., ‘What kind of furniture is in the picture?’)（對象種類識別）
3. Counting (e.g., ’How many horses are there?’) （數量）
4. Color Attributes (e.g., ‘What color is the man’s tie?’) （顏色）
5. Other Attributes (e.g., ‘What shape is the clock?’) （其他屬性）
6. Activity Recognition (e.g., ‘What is the girl doing?’) （動作識別）
7. Sport Recognition (e.g.,‘What are they playing?’)（體育活動識別）
8. Positional Reasoning (e.g., ‘What is to the left of the man on the sofa?’)（位置推理）
9. Scene Classification (e.g., ‘What room is this?’)（場景分類）
10. Sentiment Understanding (e.g.,‘How is she feeling?’)（情緒理解）
11. Object Utilities and Affordances (e.g.,‘What object can be used to break glass?’)（用途）
12. Absurd (i.e., Nonsensical queries about the image)（錯誤）

表2給出了TDIUC中每個問題類型的數量。問題來自三個來源。首先，我們從COCO-VQA和Visual Genome中導入了一部分問題。其次，我們創建了從COCO的語義分段註釋[19]和Visual Genome的對象和屬性註釋[18]生成問題的算法。第三，我們使用人工註釋器來確定某些問題類型。在以下各節中，我們簡要描述每種方法。

3.1. Importing Questions from Existing Datasets

我們從COCO-VQA和Visual Genome中導入了屬於所有問題類型的問題，除了“對象實用程序和提供能力”。我們通過使用大量的模板和正則表達式來做到這一點。對於視覺基因組，我們導入了具有一個單詞答案的問題。對於COCO-VQA，我們導入了帶有一兩個單詞答案的問題，並且其中五個或更多註釋者同意。

對於顏色問題，如果其中包含單詞“ color”且答案是常用顏色，則將導入該問題。如果答案是九種常見運動之一或十五種常見活動之一，並且該問題包含描述動作或運動（例如玩耍，投擲等）的常見動詞，則該問題被分類爲活動或運動識別問題。 -答案必須以“有多少”開頭，答案必須是一個小的可數整數（1-16）。其他類別使用正則表達式確定。例如，形式爲“是否在感覺？”的問題被歸類爲情感理解，而形式“在它的右邊/左邊/後面是什麼？”被歸類爲位置推理。

同樣，“圖像中的<OBJECT CATEGORY>是什麼？”，類似的模板用於填充從屬對象識別問題。此方法也用於有關季節和天氣的問題，例如，將“這是什麼季節？”，“這是多雨/晴天/陰天？”或“什麼樣的天氣？”導入場景分類。

3.2. Generating Questions using Image Annotations

COCO數據集和視覺基因組中的圖像都有各自的區域，並附加了語義知識。我們利用此信息使用問題模板生成新問題。爲了介紹多樣性，我們爲每種問題類型定義了多個模板，並使用註釋來填充它們。例如，爲了計數，我們使用8個模板，例如“有多少<objects>？”，“照片中有多少<objects？”等。由於COCO和Visual Genome使用不同的註釋格式，因此我們分別討論。

3.2.1 Questions Using COCO annotations

運動識別，計數，從屬對象識別，對象存在，場景理解，位置推理和荒謬問題是從COCO創建的，類似於[15]中使用的方案。爲了進行計數，我們對圖像註釋中的對象實例數進行計數。爲了最大程度地減少歧義，只有在對象覆蓋至少2,000像素的區域時才這樣做。

爲了識別從屬對象，我們提出了一些問題，這些問題需要根據對象的較大語義類別來識別對象的從屬對象分類。爲此，我們使用COCO超級類別，這是一個語義概念，涵蓋同一主題下的多個對象，例如，“傢俱”超類別包含椅子，沙發等。如果圖像僅包含一種類型的傢俱，則問題類似於因爲答案不是模棱兩可，所以生成了“圖片中的傢俱是什麼？”。使用類似的啓發式方法，我們會提出有關識別食品，電子設備，廚房設備，動物和車輛的問題。

對於物體存在的問題，我們發現圖像的物體面積大於2,000像素，併產生類似於“圖片中是否存在<物體>？”的問題，這些問題的答案爲“是”。要創建否定問題，我們會提出有關圖像中不存在的COCO對象的問題。爲了使這一點變得更困難，我們優先考慮問題的創建，這些問題是針對缺少對象的問題，這些對象屬於圖像中存在的對象的同一超類。與包含沙發和電視相比，街道場景更可能包含卡車和小汽車。因此，在街景場景中回答“卡車在嗎？”比回答“沙發在嗎？”要困難得多。

對於運動識別問題，我們會在註釋中檢測到特定運動設備的存在，並詢問有關所進行運動類型的問題。圖片只能包含一項特定運動的運動器材。使用類似的方法來創建場景理解問題。例如，如果註釋中有廁所和水槽，則該房間就是浴室，並且可以創建適當的場景識別問題。此外，我們使用超級類別“室內”和“室外”來詢問有關拍攝照片的位置的問題。
爲了創建位置推理問題，我們使用邊界框的相對位置來創建類似於“ <對象>的左邊/右邊是什麼？”的問題，由於對象重疊，這可能是模棱兩可的，因此我們採用以下試探法來消除歧義：1）兩個邊界框之間的垂直距離應在較小的閾值之內； 2）物體的重疊長度不得超過對應物長度的一半； 3）物體在水平方向上的距離不應超過距離閾值，而距離閾值是通過主觀判斷最佳距離以減少歧義而確定的。我們嘗試生成上方/下方的問題，但結果不可靠。

荒謬的問題測試了算法根據圖像內容判斷問題何時無法回答的能力。爲此，我們列出給定圖像中不存在的對象的列表，然後從TDIUC的其餘部分中查找有關這些不存在的對象的問題，是/否和計數問題除外，其中包括導入的問題來自COCO-VQA，自動生成的問題和手動創建的問題。我們列出了每張圖片都會“荒謬”的所有可能問題，並且我們統一爲每張圖片採樣了三個問題。實際上，我們將在整個數據集中多次重複相同的問題，在這個問題上它可以是真實問題，也可以是無意義的問題。如果問題很荒謬，算法必須回答“不適用”。

3.2.2 Questions Using Visual Genome annotations

Visual Genome的註釋包含區域描述，關係圖和對象邊界。但是，註釋既可以是非詳盡的，也可以是重複的，這使得使用它們自動使質量檢查對變得困難。我們僅使用Visual Genome提出顏色和位置推理問題。我們使用的方法與COCO所使用的方法相似，但是由於註釋中的古怪之處，因此需要採取其他預防措施。附錄中提供了其他詳細信息。

3.3. Manual Annotation

使用模板無法輕鬆創建情感理解和對象效用/負擔問題，因此我們使用手動註釋來創建這些模板。培訓了12位志願者註釋者來生成這些問題，他們使用了我們開發的基於Web的註釋工具。向他們顯示了來自COCO和Visual Genome的隨機圖像，還可以上傳圖像。

3.4. Post Processing Post

對所有來源的問題都進行了後處理。所有數字都轉換爲文本，例如2變成了2。所有答案均轉換爲小寫，並且刪除了標點符號。刪除同一圖像的重複問題。所有問題的答案必須至少出現兩次。數據集被分爲訓練和測試分割，其中訓練佔70％，測試佔30％。

4. Proposed Evaluation Metric

VQA研究的主要目標之一是構建能夠執行許多任務的計算機視覺系統，而不是僅對一項特定任務具有專業知識（例如，對象識別）。因此，有人認爲VQA是一種視覺圖靈測試[21]。但是，如果使用簡單的準確性來評估性能，則很難知道系統是否成功達到了此目標，因爲某些問題類型比其他問題類型具有更多的問題。在VQA中，預期問題類型的分佈偏斜。如果每個測試問題都得到同等對待，則很難評估在較罕見的問題類型上的表現並彌補偏差。我們提出了多種措施來補償偏差和偏斜分佈。

爲了補償偏斜的問題類型分佈，我們分別計算了12種問題類型的準確性。但是，擁有最終的統一精度指標也很重要。我們的總體指標是每個問題類型的所有準確性的算術和諧波均值，分別稱爲算術平均類型（Arithmetic MPT）準確性和諧波平均類型準確性（Harmonic MPT）。與算術MPT不同，諧波MPT衡量系統在所有問題類型上均具有高分並偏向性能最低的類別的能力。

我們還使用歸一化的指標，以每種問題類型內答案分佈不平衡的形式補償偏差，例如，重複次數最多的“兩個”涵蓋了所有計數類型問題的35％以上。爲此，我們分別計算問題類型中每個唯一答案的準確性，然後將它們平均化爲問題類型。爲了計算總體性能，我們計算算術歸一化平均類型（N-MPT）和諧波N-MPT分數。未歸一化的分數與歸一化的分數之間的巨大差異表明，該算法無法推廣到更稀有的答案。

5. Algorithms for VQA

儘管有其他公式（例如[6，10]），但大多數VQA系統將其公式化爲分類問題，在該問題中，系統會給出圖像和問題，並給出答案作爲類別。 [3、25、5、27、9、16、11、20、24、26、29、31、32、34、10、22]。幾乎所有系統都使用CNN功能來表示圖像，並使用遞歸神經網絡（RNN）或用於問題的詞袋模型。我們簡要回顧其中一些系統，重點關注我們在實驗中比較的模型。有關更全面的評論，請參見[14]和[28]。

兩個簡單的VQA基線是線性或多層感知器（MLP）分類器，它們將問題和圖像嵌入彼此串聯在一起作爲輸入[3、13、34]，其中圖像特徵來自CNN的最後一個隱藏層。這些簡單的方法通常效果很好，並且可以與複雜的注意力模型競爭[13，34]。

在VQA模型中[5，27，32，30，31，20，9]對空間注意力進行了大量研究。這些系統會根據與問題的相關性來權衡視覺特徵，而不是使用全局特徵（例如，從CNN的最後一個隱藏層開始）。例如，回答“熊是什麼顏色？”的目的是強調熊周圍的視覺特徵，而抑制其他特徵。

MCB系統[5]贏得了CVPR-2016 VQA車間挑戰賽。除了使用空間注意力之外，它還隱式計算圖像和問題特徵之間的外部乘積，以確保它們的所有元素都相互作用。顯式地計算外部乘積將是緩慢的並且具有極高的尺寸，因此可以使用有效的近似來完成。它使用一個長短期記憶（LSTM）網絡來嵌入問題。

神經模塊網絡（NMN）是VQA的一種特別有趣的合成方法[1，2]。主要思想是組成一系列離散模塊（子網），這些模塊可以一起執行以回答給定的問題。爲此，他們使用各種模塊，例如，find（x）模塊輸出用於檢測x的熱圖。爲了安排模塊，首先將問題解析爲簡潔的表達式（稱爲S表達式），例如，“什麼在汽車的右邊？”被解析爲（什麼汽車）；（什麼正確）；（什麼（和汽車右））。使用這些表達式，模塊被組合成一個序列來回答查詢。

VQA的多步遞歸應答單元（RAU）模型是另一種最新方法[23]。 RAU中的每個推理步驟都包含一個完整的回答模塊，該模塊接受圖像，問題和上一個LSTM步驟的輸出。這些中的每一個都是一個較大的LSTM網絡的一部分，該網絡逐漸地對該問題進行推理。

6. Experiments

我們在TDIUC上訓練了多個基線模型以及最新的VQA方法。我們使用的方法是：

YES: Predicts ‘yes’ for all questions.
REP: Predicts the most repeated answer in a question-type category using an oracle.
QUES: A linear softmax classifier given only question features (image blind).
IMG: A linear softmax classifier given only image fea- tures (question blind).
Q+I: A linear classifier given the question and image..
MLP: A 4-layer MLP fed question and image features.
MCB: MCB [5] without spatial attention.
MCB-A: MCB [5] with spatial attention.
NMN: NMN from [1] with minor modifications.
RAU: RAU [23] with minor modifications

對於圖像功能，所有模型均使用具有448×448圖像的ResNet-152 [8]。

QUES和IMG提供有關數據集中偏差的信息。 QUES，Q + I和MLP都使用4800維跳躍思想向量[17]來嵌入問題，就像在[13]中所做的那樣。對於圖像功能，所有這些都使用標準化爲單位長度的ResNet-152的“ pool5”層。 MLP是具有softmax輸出層的4層網絡。 3個ReLU隱藏層分別具有6000、4000和2000個單位。在訓練期間，對隱藏層使用了落差（0.3）。

對於MCB，MCB-A，NMN和RAU，我們使用了公開代碼在TDIUC上進行訓練。除了將NMN和RAU的視覺表示升級爲都使用ResNet-152之外，實驗設置和超級參數與代碼的默認選擇保持不變。

這些模型在TDIUC上的結果在表3中給出。表3中12種問題類型的每一種的準確率得分都在表3中給出，附錄5在表5中給出了使用均值唯一答案進行歸一化的得分。

7. Detailed Analysis of VQA Models

7.1. Easy Question-Types for Today’s Methods

通過查看錶3，我們可以發現在MPT下某些問題類型相對容易（> 90％）：場景識別，運動識別和物體存在。荒謬的情況下也可以實現高精度，我們將在7.4節中進行更詳細的討論。儘管有大量獨特的答案，但從屬對象的識別率仍較高（> 80％）。儘管有大量訓練數據，但所有方法的計數準確性均很低。對於其餘的問題類型，需要進行更多分析以查明性能較弱是由於訓練數據量較少，偏倚還是模型限制所致。接下來，我們將研究N-MPT可以彌補多少良好的性能是由於答案分佈的偏差。

7.2. Effects of the Proposed Accuracy Metrics

我們的主要目標之一是通過簡單地學習回答更多且更簡單的問題類型來彌補算法可以取得高分這一事實。對於現有的數據集，早期的工作表明，使用簡單的精度，簡單的基線方法通常會比更復雜的方法[13，34，10]。在TDIUC上，MLP的簡單準確性超過了MCB和NMN，但仔細檢查後發現，MLP的得分高度取決於類別衆多的類別（例如“荒謬”和“對象存在”）的性能。使用MPT，我們發現NMN和MCB均勝過MLP。檢查每種問題類型的標準化分數（附錄表5）顯示出更加明顯的差異，這也反映在表3所示的算術N-MPT分數中。這表明MLP容易過擬合。與RAU相比，MCB-A的效果要好於簡單的精度，但RAU在所有旨在補償偏斜的答案分佈和偏見的指標上得分都較低。

比較未歸一化和歸一化度量可以幫助我們確定給定問題類型的VQA算法的歸納能力。這些分數之間的巨大差異表明，算法依賴於偏斜的答案分佈來獲得高分數。我們發現，對於MCB-A，從屬對象識別的準確性從未歸一化的85.54％降至歸一化的23.22％，而對於場景識別，其準確率從93.06％（未歸一）降至38.53％（歸一）。這兩個類別的答案分佈都嚴重偏斜。從屬對象識別中的前25個答案和場景識別中的前5個答案涵蓋了各自問題類型中所有問題的80％以上。這表明看似簡單的問題類型可能僅僅是由於算法學習了答案統計信息。真正簡單的問題類型在未規範化和規範化指標方面的表現都相似。例如，儘管計數具有相同數量的唯一答案和更多的訓練數據，但運動識別僅下降了17.39％，而計數下降了30.21％。通過比較規範化和未規範化指標之間性能的相對下降，我們還可以比較算法的泛化能力，例如，對於從屬對象識別，RAU與MCB-A（85.54％）相比具有更高的非規範化分數（86.11％）。但是，對於歸一化分數，MCB-A的性能（23.22％）明顯高於RAU（21.67％）。這表明RAU可能更多地取決於答案分佈。與MCB相比，可以對MLP進行類似的觀察。

7.3. Can Algorithms Predict Rare Answers?

在上一節中，我們看到了VQA模型難以正確預測稀有答案。重複次數少的問題實際上難於回答，還是算法只是偏向更頻繁的答案？爲了對此進行研究，我們創建了TDIUC的子集，該子集僅包含答案重複少於1000次的問題。我們稱此數據集爲TDIUC-Tail，其中包含46,590個訓練和22,065個測試問題。然後，我們在以下方面訓練了MCB：1）完整的TDIUC數據集；和2）TDIUC尾巴。兩種版本均在TDIUC-Tail的驗證版上進行了評估。
我們發現，在所有問題類型上僅接受TDIUC-Tail訓練的MCB勝過接受所有TDIUC訓練的MCB（詳細信息在附錄表6和表7中）。這表明MCB能夠學習正確預測稀有答案，但是它偏向於預測更常見的答案以最大化整體準確性。使用歸一化的準確性會削弱VQA算法對答案統計信息的依賴，並且對於部署VQA系統，直接針對N-MPT優化可能會有用。

7.4. Effects of Including Absurd Questions

荒謬的問題迫使VQA系統查看圖像以回答問題。在TDIUC中，這些問題是從其餘數據集中採樣的，並且有很高的先驗概率被回答爲“不適用”。這在QUES模型中得到了證實，這在荒謬的情況下實現了很高的準確性；但是，對於相同的問題，如果它們是圖像的真品，則只能在這些問題上達到6.77％的準確性。通過犧牲其他類別的性能可以實現良好的荒謬性能。一個強大的VQA系統應該能夠檢測出荒謬的問題，而不會失敗。通過檢查與荒謬問題相同的真實問題的準確性，我們可以量化算法將荒謬問題與真實問題區分開的能力。我們發現，較複雜的模型（MCB：62.44％，MCB-A：68.83％），較簡單的模型在這些問題上的準確性要低得多（QUES：6.77％，Q + I：34％）。

爲了進一步研究這一點，我們訓練了兩種VQA系統，即Q + I和MCB，有無荒謬。結果列於表3。與沒有完整問題的Q + I相比，對於經過培訓的Q + I沒有其他荒謬的問題，其他類別的準確度有了顯着提高，尤其是對於用於抽樣荒唐問題的問題類型，例如活動識別（使用荒謬的訓練時爲24％，沒有訓練時爲48％）。在沒有荒誕的情況下訓練的Q + I模型的算術MPT準確性（57.03％）也比在荒謬的情況下訓練的模型的MPT精度要高（除荒謬性以外，所有類別的MPT準確性均爲51.45％）。這表明Q + I不能正確地區分荒謬和真實的問題，並且傾向於將真正的問題誤認爲是荒謬的。相比之下，功能更強大的模型MCB產生的荒謬結果更糟，但是在沒有荒誕的情況下訓練的版本與Q + I相比，差異要小得多，這表明MCB更具有識別荒謬問題的能力。

7.5. Effects of Balancing Object Presence

在7.3節中，我們看到偏斜的答案分佈會影響泛化。即使對於簡單的問題，此效果也很強，甚至影響最複雜的算法。當MCB-A在COCO-VQA和視覺基因組上接受培訓時，請考慮一下MCB-A，即CVPR-2016 VQA Workshop Challenge的獲勝者。當根據來自TDIUC的對象存在問題進行評估時，該問題包含50％的“是”和50％的“否”問題，它可以正確地以86.3％的準確度預測“是”的答案，而對於“否”的問題則僅爲11.2％。回答。然而，在TDIUC上對其進行訓練後，MCB-A能夠通過“瞭解” COCO-VQA數據集的偏見獲得95.02％的“是”和“ 92.26％”的“否”。數據集無偏時的性能良好。在[33]中也有關於平衡是/否問題的類似觀察。數據集可以平衡簡單的類別（例如對象存在），但是將相同的概念擴展到所有其他類別是一項艱鉅的任務，並且破壞了現實世界的自然統計數據。採用平均平均值和歸一化的準確性度量標準可以幫助彌補此問題。

7.6. Advantages of Attentive Models

通過將問題分解成各種類型，我們可以評估哪些類型最受關注。我們通過比較有無注意的MCB模型（即MCB和MCB-A）來做到這一點。如表3所示，注意力有助於改善幾個問題類別的結果。最明顯的增加是顏色識別，屬性識別，荒謬和計數。所有這些問題類型均要求算法檢測正確答案的指定對象（或缺少指定對象）。 MCB-A使用來自不同空間位置的局部特徵而不是全局圖像特徵來計算注意力。這有助於定位單個對象。注意機制瞭解這些功能的相對重要性。 RAU還利用空間注意力並顯示相似的增量。

7.7. Compositional and Modular Approaches

NMN和較小的RAU提出了VQA的組合方法。對於COCO-VQA，使用簡單的精度，NNN的性能比某些MLP模型差[13]。對於希望逐步進行邏輯分析圖像的問題（例如位置推理），我們希望它會比其他模型具有更好的性能。但是，儘管使用MPT和N-MPT度量標準，NNN的表現要好於MLP，但在特定問題類型上我們沒有看到任何實質性的好處。這可能是因爲NMN受“ S表達式”解析器質量的限制，該解析器在許多情況下會產生錯誤或誤導性的解析。例如，“最左邊的那個人的外套是什麼顏色？”被解析爲（彩色外套）；（彩色假）；（彩色（和外套假））。這種表達方式不僅無法解析“男人”（這是正確回答問題所必需的關鍵要素），而且還會錯誤地將“左”解釋爲休假的過去式。

RAU對多個躍點執行推理，並且由於每個躍點都包含完整的VQA系統，因此它可以學習在每個步驟中解決不同的任務。由於它是端到端訓練的，因此不需要依賴嚴格的問題解析。它在檢測荒謬問題上顯示出非常好的性能，並且在其他類別上也表現出色。

8. Conclusion

我們介紹了TDIUC，這是一個VQA數據集，它由12種明確定義的問題類型（包括荒謬的問題）組成，並用它來對最新的VQA算法進行嚴格的分析。我們提出了新的評估指標來補償VQA數據集中的偏差。結果表明，荒謬的問題和新的評估指標使人們對VQA算法的行爲有了更深入的瞭解。

An Analysis of Visual Question Answering Algorithms翻譯