【NIPS2018】Reasoning with Graph Convolution Nets for Factual Visual Question Answering【事實視覺問答推理】

“Out of the box:Reasoning with Graph Convolution Nets for Factual Visual Question Answering”

今天給大家分享的NIPS2018的一篇有趣論文,還是老樣子,論文PDF和高端大氣上檔次PPT下載鏈接: https ://download.csdn.net/download/luolan9611/10824134

一,介紹

VQA(Visual Question Answer):是一種看圖問答任務,它同時要求算法有能力分析理解圖像的內容,並且對提出的問題進行語義抽取,關鍵知識解析。常見的圖像問答可以直接從圖像內容獲取到問題的答案無須推理過程。

基於事實的視覺問答推理任務(FVQA):該任務不僅包含圖像與相應問題及其答案的語料,還攜帶了一個數量巨大的知識庫(知識數據庫)裏面包括了從各個來源提取到的事實(事實)。它要求算法根據問題中的文字表述結合圖像,將事實關係映射到答案本身的實體上,即相較於看圖問答(VQA),事實圖像問答(FVQA)多了一個推斷的過程。

基於事實的圖像問答任務(FVQA)輸入數據由成對的圖像與其對應的問題,所有遊戲外加大量事實的知識庫(知識庫,KB)構成,事實(事實)在知識庫中以形如F =( x,y,r)的三元組來表示,x指代圖像中的實體信息,y指代屬性或者短語,r則是關係介詞。“FVQA:Fact-Based Visual Question Answering”的作者提出了FVQA數據集,該數據集有2190圖片,5286問題,問題對應了4126事實。上面的三張圖便是摘自FVAQ事實視覺問答任務。

左圖問題:圖片中的區域是用來做什麼的?

事實三元組:(提起,用於,放牧動物)田野用於放牧

中間問題:圖中的哪個物體和老虎更相近?

事實三元組:( Cat,RelatedTo,Tiger)貓和老虎相關

右圖問題:這張圖中的地上能找到什麼?

事實三元組(沙,AtLocation,海灘)沙子在沙灘上

這些事實關係抽取自知識庫如ConceptNet,WebChild,DBpedia。可能的關係有可能的關係R = {Category,Comparative,HasA,IsA,HasProperty,CapableOf,Desires,RelatedTo,AtLocation,PartOf,ReceivesAction,UsedFor,CreatedBy} ),如下表所示(該表截自FVQA論文):

知識庫中的關係有19瓦特+,是非常龐大的,要想根據圖片及問題從知識庫中檢索到相應的事實,並不是一件容易的事。

GCN:Kipf和威靈引入了圖形卷積網絡(GDN)來擴展卷積神經網絡(CNN)以任意連接無向圖.GCN學習圖中每個節點的表示,該表示編碼感興趣節點周圍的圖的局部結構,以及節點本身的特徵。在圖卷積層,從相鄰節點和節點本身聚合特徵以產生新的輸出特徵。通過堆疊多個層,我們能夠從更遠的節點收集信息.GCN已成功應用於圖節點分類[25],圖形鏈接預測[42]和零點預測[52]。由於各種類型的關係連接的節點之間的基礎結構化交互,知識圖自然適用於GCN的應用。在這項工作中,給定圖像和關於圖像的問題,我們首先識別大型知識圖的有用子圖,如DBpedia [3],然後使用GCN生成編碼節點和鄰域特徵的表示,可用於回答這個問題。

二,方法

看圖,作者提出的方法主要分爲兩個模塊,左邊是事實檢索模塊,右邊是答案預測模塊。

1 )事實檢索模塊:檢索給定問題- 圖像對的最相關事實根據問題與事實之間的單詞相似性提取前100個事實,即f100。通過基於事實關係與預測關係的一致性來減少F100,來獲得一組相關事實(事實關係與預測關係的一致性是LSTM從問題中預測到的關係,去和檢測到的100個事實中的關係匹配篩選,預測到的關係是ISA,那麼就從F100中把不是ISA關係的事實篩掉)

2 )答案預測模塊:將答案預測爲這個減少的事實空間中的一個實體爲了預測答案,我們使用GCN來計算圖中節點的表示,其中節點對應於唯一實體:

即X或者ý在事實空間中。如果事實與兩者相關,則圖中的兩個實體是連接的。使用GCN允許聯合評估所有實體的適用性。

上圖中標有的7個小步驟:​​給定圖像和問題,使用形容詞:性評分技術(1)。從事實空間獲得相關事實(2)LSTM從問題預測關係,以進一步減少相關事實及其實體的集合。通過連接圖像的視覺概念嵌入(3),問題的LSTM嵌入(4)和實體的LSTM嵌入(5)來獲得實體嵌入。每個實體在圖中形成單個節點,並且關係構成邊(6 GCN (圖卷積網絡)後跟MLP進行聯合評估(7)以預測答案。該方法是端到端的訓練。

【解釋一下這裏的相似性評分技術】:

 手套詞嵌入用於表示事實和問題中的每個單詞。執行初始會從問題中移除停止詞(例如“做什麼”,“在哪裏”,“了”)。爲了給每個事實分配相似性得分,我們計算手套嵌入事實中每個單詞與問題中的單詞的餘弦相似度和與檢測到的視覺概念中單詞的餘弦相似度。我們選擇事實中具有最高相似度的單詞的前ķ%,並將這些值平均作爲該事實的相似性得分。根據經驗,我們發現K = 80可以得到最好的結果。

手套的全稱叫字表示的全局向量,它是一個基於全局詞頻統計(基於計數和整體統計)的詞表徵(單詞表示)工具,它可以把一個單詞表達成一個由實數組成的向量,這些向量捕捉到了單詞之間一些語義特性,比如相似性(相似性),類比性(類比)等。我們通過對向量的運算,比如歐幾里得距離或者餘弦相似度,可以計算出兩個單詞之間的語義相似性。

訓練:

模塊一中關係預測器的參數是獨立訓練的模塊二中由兩個隱層GCN 與一層MLP 形成的網絡進行端到端訓練,網絡採用隨機梯度下降與交叉熵損失進行最終的答案預測

 

三,實驗及結果

1。

根據相似性對事實進行排序,並篩選100個最高得分事實。表1顯示,真實事實在84.8%的時間中存在於前100個檢索到的事實中,並且在22.5%的時間被檢索爲TOP1事實。報告的數字是五個測試集的平均值。我們還改變了第一階段檢索到的事實數量,並在選項卡中報告召回率和下游準確率(最終準確率)。當只檢索50個事實時,召回@ 50(76.5%)低於召回@ 100(84.8%),這導致模型的最終準確率降至58.93%。當我們檢索150個事實時,召回率爲88.4%,最終準確率爲68.23 %,因爲檢索前100個事實的效果最好,所以選擇檢索100個事實。

2。

之前在FVQA上表現最好的STTF方法的準確率爲62.20%,本文最好的結果12有69.35%,比先前高了7%。上面的表是其它方法的準確率,下面的表是作者做的控制變量實驗。說明VC(Visual Concept),MLP,GCN Layers,REL對模型的作用。

用一張來自FVQA論文的圖解釋一下視覺概念:

只看最左邊這列,一張圖,用目標檢測器,場景分類器,屬性分類器,從圖中提取出物體,場景,動作三種信息,得到圖中的目標爲貓,狗,圍欄,場景爲庭院,行爲是坐着和站立這些視覺概念在本文的方法中用於和問題嵌入,實體嵌入連接,形成節點圖作爲GCN的輸入本文中VC的圖如下:

3。

在本文中,解決FVQA任務的總準確率受三個子模塊準確率的影響。一是事實檢索的準確率,二是關係預測的準確率,三是答案預測的準確率。上表展示的是錯誤率。

4.最激動人心的時刻到了,效果展示展示展示:

1.圖中的什麼東西是烘焙出來的?甜甜圈

2.圖中的哪個物體有釘釘刺刺?菠蘿

3.圖中的哪個物體有毒?蛇

4.圖中的哪個行爲比走路快?騎自行車

-------------------------------------------------- -------------------------------------------------- -------------------------------------------------- ---------------

這一行展示的效果是本文提出的方法對於同義詞,同形異義詞也不在話下:

1.圖中的哪個交通工具可以浮動?問題中的關鍵詞是漂浮,而事實中的關鍵詞是sailing.float和帆船屬於同義詞,但是在問題和事實中的表述不同。這樣的問題也能解決哈哈。

2.這張圖中展示的地方是用來幹什麼的?答案應該是烹飪吧,爲什麼是廚房呢。作者說這個很厲害是因爲問題中沒有出現任何關鍵字,但仍然能夠匹配到事實。

3 ...... ....... 4

-------------------------------------------------- -------------------------------------------------- -------------------------------------------------- -------------

這一行展示的是錯誤的效果,下面紅色的字標出了錯誤原因。可能是事實沒有出現在檢索的前100條中,可能是預測了錯誤的關係,也可能是GCN預測了錯誤的節點。

-------------------------------------------------- -------------------------------------------------- -------------------------------------------------- ----------------

今天的分享就到這裏啦,爲這篇論文做了一個分享PPT,感興趣的朋友可以在CSDN的下載區域下載: https ://download.csdn.net/download/luolan9611/10824134

 

另外有一篇可參考的:NeurIPS 2018亮點選讀:深度推理學習中的圖網絡與關係表徵

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章