論文-《Answer Them All! Toward Universal Visual Question Answering Models》重點翻譯+擴展

The projector F is modeled as a 4-layer MLP with 1024 units with swish non-linear activation functions [45].

投影F是一個四層MLP,有1024個單元,並且具有swish非線性激活函數。

註釋:

1.MLP:

感知機是神經網絡(深度學習)的起源算法,是一個包含若干個輸入和一個輸出的模型。

輸入和輸出之間學習到一個線性關係,得到的中間結果爲:

再接着一個神經元激活函數:

這個模型只能用於二元分類,且無法學習比較複雜的非線性模型,因此在工業界無法使用

進而出現了多層感知機(MLP),也成爲深度神經網絡(DNN),雖然DNN看起來很複雜,但是從小的局部模型來說,還是和感知機一樣,即一個線性關係z=∑wixi+bz=∑wixi+b加上一個激活函數σ(z)σ(z)。神經網絡在感知機的模型上做了擴展,總結下主要有三點:

(1)加入了隱藏層,隱藏層可以有多層,增強模型的表達能力

(2)輸出層的神經元也可以不止一個輸出,可以有多個輸出,這樣模型可以靈活的應用於分類迴歸

(3)對激活函數做擴展,神經網絡一般多用Sigmoid或者Relu等

而MLP的主要特性有:

(1)包含多個層(最少一個隱藏層)

(2)每一層內的神經元無連接

(3)每一層的神經元僅和下一層的神經元全連接

(4)信號僅以前饋方式傳輸

2.Swish是Google在10月16號提出的一種新型激活函數,其原始公式爲:f(x)=x * sigmod(x),變形Swish-B激活函數的公式則爲f(x)=x * sigmod(b * x),其擁有不飽和,光滑,非單調性的特徵,而Google在論文中的多項測試表明Swish以及Swish-B激活函數的性能即佳,在不同的數據集上都表現出了要優於當前最佳激活函數的性能。

 

Question-Conditioned Graph (QCG)  represents images as graphs where object-level features from bottom- up region proposals act as graph nodes and edges that encode interactions between regions that are conditioned on the question.

問題條件圖將圖像表示爲一個圖,由自底向上機制對候選區域提取的對象層次的特徵作爲圖的節點和邊,邊表示了問題條件下區域之間的關係。

註釋:

這裏關於QXG的內容一點也沒有搜到,但是瞭解到這個和圖卷積有關,所以解釋一下圖卷積吧。

卷積神經網絡很好,但是它研究的對象還是限制在Euclidean domains(歐幾里得域)的數據。Euclidean data最顯著的特徵就是有規則的空間結構,比如圖片是規則的正方形柵格(像素),比如語音是規則的一維序列。而這些數據結構能夠用一維、二維的矩陣表示,卷積神經網絡處理起來很高效。

但對於大數據而言,並不時只有圖片和文本。比如推薦系統、電子交易、計算幾何、腦信號、分子結構等抽象出的圖譜。這些圖譜結構每個節點連接都不盡相同,有的節點有三個連接,有的節點有兩個連接,是不規則的數據結構。

可以很明顯的感受到,圖有兩個基本的特性:

一是每個節點都有自己的特徵信息也就是自身節點的性質。

二是每個節點還具有結構信息也就是節點與節點之間相連的信息。

 

Bilinear Attention Network (BAN) [28] fuses visual and textual modalities by considering interactions between all region proposals (visual channels) with all question words (textual channels).

雙線性注意力網絡通過考慮所有候選區域(視覺通道)和所有問題單詞(文本通道)的交互來融合視覺和文本形態。

註釋:

藉助bilinear model的思想提出了bilinear attention的思想。常規的attention map是對單個特徵的attention,output=feature * attention map,而本文提出的bilinear attention map則對兩個特徵的attention, output=feature1 * bilinear attention map * feature2,表達式如下:

左圖通過MLB把圖像特徵和文本特徵融合,進而得到bilinear attention map,右圖則是把bilinear attention map用於進行圖像特徵和文本特徵的attention融合。

 

Unlike dual-attention mechanisms [38], BAN handles interactions between all channels. 

與雙重注意力機制不同的是,BAN處理所有通道之間的交互。

註釋:

對於位置注意力模塊,引入self-attention機制來捕獲任意兩個位置之間的空間依賴性,具有相似特徵的兩個位置可以促進相互改進,而不管它們再空間維度上的距離。

對於通道注意力模塊,使用類似的self-attention機制來捕獲任意兩個通道maps之間的通道依賴關係,並使用所有通道maps的加權和來更新每個通道maps。

 

It can be considered a generalization of low-rank bilinear pooling methods that jointly represent each channel pair.

它被認爲是聯合表示每一個通道對的低秩雙線性池化方法的泛化。

註釋:

1.bilinear pooling:

2.low-rank bilinear pooling:
所謂的低秩雙線性池化,我的理解是由於雙線性池化運算時參數矩陣過大,所以通過某種手段進行降維,使之有更高的速率。(資料太難查了,我哭遼)

 

Relation Network (RN) [48] takes in every pair of region proposals, embeds them, and sums up all N2 pair embeddings to produce a vector that encodes relationships be- tween objects.

關係網絡對每一對候選區域進行嵌入,並且對每一個嵌入對進行加和生成一個表示對象間關係的編碼。

註釋:

分類器能夠從每個類別的少量樣本學會比較,從而實現小樣本學習(Few-Shot Learning),並且稍加改進,就能夠實現從少樣本學習到零樣本學習。該方法稱之爲關係網絡(Relation Network (RN))

 

Often VQA models achieve state-of-the-art performance using visual features that differ from past models, making it difficult to tell if good performance came from model improvements or improvements to the visual feature representation

VQA模型通常使用視覺特徵來實現最先進的功能,這和過去的模型不一樣,這就導致很難判斷好的性能是來源於模型的改進還是由於視覺特徵的表示。

 

UpDn, QCG and BAN are all designed to operate on region proposals.

UpDn,QCG,BAN都是被設計用來操作候選區域的。

 

For both MAC and RN, we needed to modify the input layers to accept bottom-up features, instead of convolutional feature maps.

而對於MAC和RN,我們需要修改輸入層來接收自底向上的特徵而不是卷積特徵圖。

 

For MAC, we replace the initial 2D convolution operation with a linear projection of the bottom-up features.

對於MAC,我們使用自底向上特徵的線性映射取代初始2D卷積操作。

 

For RN, we remove the initial convolutional network and directly concatenate bottom-up features with question embeddings as the input.

對於RN,我們去掉了最初的卷積網絡,直接連接問題嵌入的自底向上特徵作爲輸入。

 

MAC has the largest performance drop, which suggests its reasoning cells were not able to compose real-world visuo-linguistic concepts effectively

MAC單元的性能下降最大,這代表推理單元無法有效地構建真實世界視覺語言概念。

 

We believe that the recurrent aggregation aids in capturing interactions between the bimodal embeddings, which is critical for reasoning tasks, and that it also helps remove duplicate proposals by performing a form of non-maximal suppression.

我們認爲循環嵌入有助於捕獲雙模態嵌入之間的相互作用,這對推理任務來說事至關重要的,並且它會通過執行非最大抑制幫助去掉重複區域。

 

The Transparency By Design (TBD) network [37] obtains 99.10% accuracy on CLEVR by using ground truth functional programs to train the network, which are not available for natural VQA datasets.

透明設計網絡通過使用真值功能程序訓練網絡,可以在CLEVR數據集上達到99.10%的準確率,不過這個在真實VQA數據集上沒有使用。

註釋:

MIT和普朗克航空系統公司的研究人員合作,圍繞視覺注意力機制,提出了一組視覺推理原語(primitives),組合起來後得到的模型,能夠以明確可解釋的方式,執行復雜的視覺推理任務,在視覺理解數據集CLEVR上達到了99.1%的準確率。他們將這種設計模型的方法稱之爲“透明設計”(Transparency-by-Design,TbD),使用這種方法設計出的網絡則稱爲“透明設計網絡”(TbD-nets)。

 

Neural-Symbolic VQA (NS-VQA) [53] reports a score of 99.80% on CLEVR, but uses a question parser to allocate functional modules along with highly specialized segmentation-based CNN features.

NS-VQA記錄了其在CLEVR數據集上的分數99.8%,但它使用一個問題解析器來分配功能模塊以及高度專門化的基於分段的CNN特性

註釋:

NA-VQA模型結合了兩個強大的思想:用於視覺識別和語言理解的深度表示學習和用於推理的符號程序執行。系統首先從圖像中恢復結構場景表示,從問題中恢復程序跟蹤,然後在場景表示上執行程序以獲得答案。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章