[CVPR 2019 論文筆記] On zero-shot recognition of generic objects

On zero-shot recognition of generic objects

pdf

摘要

這篇論文要討論的是ZSL在大型數據集ImageNet benchmark上的精度非常低的問題。原因主要是ImageNet benchmark針對這個任務有兩方面的缺陷:一個是結構缺陷,一個是低質量語義圖像

論文主要是爲ZSL任務挑選一個更合適的數據集。在總結中,作者也提出ZSL的目標和定義到底是什麼,也有待深入討論。


1. 引言

本文的分析引出了兩個影響ZSL模型精度主要因素:標準評估協議中的結構缺陷低質量語義視覺樣本。從好的方面來看,我們表明,一旦考慮到這些缺陷,實際存在ZSL模型的準確性比之前認爲的要高得多。

另一方面,我們證明了一個平凡的解決方案比大多數現有的ZSL模型有很大的優勢,這是令人沮喪的。爲了解釋這一現象,我們引入了ZSL數據集中結構偏置的概念。我們認爲ZSL模型旨在開發組合推理能力,但是Imagenet基準測試中存在的結構偏置更傾向於基於訓練類和測試類之間的簡單一對一映射的解決方案。


2. 相關工作

Frome等人[3]提出了一種基於Imagenet數據集的ZS通用對象識別基準,並在近期的工作中被廣泛採用作爲標準評價基準[13,20,15,1,21,7,18]。他們使用word embeddings作爲語義表示,使用ILSVRC數據集的1000個類作爲訓練類,並根據與Wordnet層次結構中的訓練類的距離,從Imagenet數據集的其餘20845個類中提取不同的測試分割:2跳、3跳和所有的測試分割。


3. 準備知識

所有類別CC
訓練類別CtrC_{tr}
測試類別CteC_{te}
標註圖像XX
語義表示YY

CtrCteC(1a)C_{tr} \cup C_{te} \subset C \tag {1a}

CtrCte=ϕ(1b)C_{tr} \cap C_{te} = \phi \tag {1b}

Y=ycRdcC(1c)Y = {y_c \in R^d c \in C} \tag {1c}

X={(x,c)R3×h×wcC}(1d)X = \{ (x, c) \in R^{3 \times h \times w} \quad \forall c \in C \} \tag {1d}

Tr={(x,yc)cCtr}Tr = \{ (x, y_c) | c \in C_{tr} \}

Te={(x,yc)cCte}Te = \{ (x, y_c) | c \in C_{te} \}

ZSL模型旨在求解最優參數 θ\theta^*

θ=argminθE(x,y)TrL(Eθ(x,y)+Ω(θ))(2) \theta^* = argmin_{\theta} \mathbb E_{(x, y) \in Tr} \mathcal L(E_{\theta}(x, y) + \Omega(\theta)) \tag{2}

其中, L\mathcal L是損失函數,EE是相似度分數函數。

E\mathbb E是什麼?

在標準的ZSL設置下,測試樣本xtex_{te}的分類是通過在未見類別中檢索相似度分數最高的類別描述yy

c=argmaxcCteE(xte,yc)(3) c = argmax_{c \in C_{te}} E(x_{te}, y_c) \tag{3}

在廣義的ZSL設置下,測試樣本xtex_{te}的分類是通過在所有類別中檢索相似度分數最高的類別描述yy

c=argmaxcCE(xte,yc)(4) c = argmax_{c \in C} E(x_{te}, y_c) \tag{4}


4. 誤差分析

ZSL基準測試包含三個部件:標註圖像集合 XX、語義表示集合 YY 和訓練測試類別 (Ctr,Cte)(C_{tr}, C_{te})。作者接着分析了誤差來源:不同測試分割的不一致性、詞嵌入的質量低的影響因素、圖像樣本的歧義性。

4.1 結構缺陷

圖1說明了Wordnet層次結構中標準測試分割的測試類的配置。這種配置導致了一個明顯的矛盾:測試集包括父類和子類概念的可視類

考慮在hop-1測試拆分中對鳥類圖像進行分類的問題,如圖1所示。標準的測試分割會導致兩種可能不一致的場景:

  1. 將子類Cathartid的圖片分類爲其父類Raptor。標準基準將這種情況認定爲分類錯誤,而這種分類在語義上是正確的。
  2. 將父類Raptor的圖片分類爲其子類Cathartid。標準基準將這種情況認定爲分類錯誤,而這種分類在語義上是不確定的。

我們把上述兩種情況都稱爲假負例。圖2 給出了在1-hop測試拆分上不同場景的ZSL分類分佈。

在這裏插入圖片描述

一張圖片xx的分類輸出有4種:正確標籤 cccc的父類、cc的子類、不相關類。只有最後一種情況是確定錯誤的。

分析:GCN模型

標準ZSL 廣義ZSL
分類正確 21.8% 10.3%
分成父類 6.0% 12.2%
分成子類 12.6% 22.1%
分類錯誤 59.6% 55.4%

在標準ZSL設置下,假負例的比率爲18.6%。真正的準確率應該在27.8%-40.4%之間。
在廣義ZSL設置下,假負例的比率爲34.3%。真正的準確率應該在22.5%-44.6%之間。

4.2 詞嵌入

作者確定了影響詞嵌入質量的兩個因素,並分析了它們對ZSL準確性的影響:多義詞出現頻率。作者認爲,這些問題在定義大規模物體類別時自然會出現,所以這是一般物體零樣本識別的隱含問題。但是,我們認爲ZSL基準測試應該提供一個高質量的、明確的語義表示的精心策劃的環境,並且將來應該分別研究解決多義詞和罕見詞的特殊情況的解決方案。

4.2.1 出現頻率

從大型文本語料庫中單詞的共現統計量中,以無監督的方式學習單詞嵌入。常用詞是從大量的統計信息中學習而來的,因此我們希望它們比從稀少的共現統計信息中學習的罕見詞彙提供更有語義意義的表示。我們發現很多Imagenet類標籤都是稀有詞(見補充資料附錄B),多達33.7%的標籤詞在Wikipedia中出現不到50次。在這裏,我們質疑從這些罕見的詞嵌入中學習到的少數共現統計信息是否爲ZSL提供了任何視覺上的判別性信息。

在這裏插入圖片描述

圖中每個點表示100個測試類的top-1精度。x軸,表示測試類標籤的平均出現頻率。y軸,表示top-1精度平均值。

4.2.2 多義詞

在這裏插入圖片描述

多義詞的說明。每種顏色代表一個單詞的100個最近鄰。“Cairn”及其近鄰圍繞着與石頭和紀念碑相關的詞彙,遠離與狗相關的詞彙,因此我們將top visual class作爲單詞Cairn的主要含義。

爲了處理一詞多義現象,我們假設所有的詞都有一個主要的意思,可能還有幾個次要的意思。我們將單詞嵌入考慮爲唯一反映其主要含義的語義,並丟棄與其單詞標籤的次要含義相關的可視類

在這裏插入圖片描述
圖3報告了在這些不同的測試劃分上獲得的準確性。我們可以看到,單詞標籤被標識爲主要含義的測試類的ZSL準確性有了顯著提高。相比之下,只包含次要含義的測試劃分表現得很差。這證實了一詞多義確實影響了ZSL的準確性,並表明我們對主要含義識別的解決方案可以解決這個問題。

4.3 圖像樣本

ILSVRC數據集由Imagenet數據集的高質量子集組成。當前的ZSL基準使用ILSVRC類作爲訓練類,並使用從Imagenet數據集的其餘部分提取的類作爲測試集,假設這些測試類具有類似的質量標準。經過仔細檢查,我們發現這些測試類包含許多不一致和歧義。在本節中,我們詳細介紹了一個自動過濾模糊樣本的解決方案,以便僅爲我們建議的基準選擇高質量的樣本。

4.3.1 按類別選擇

在這裏插入圖片描述
圖5:相對於樣本總體大小的ZSL精度。
左:Imagenet類總體大小的分佈。6.1%的Imagenet類的樣本小於10個,21.1%的Imagenet類的樣本小於100個。右:不同測試劃分的ZSL準確度相對於它們的平均樣本總體大小。

在圖5中,我們報告了我們的模型相對於它們的平均總體計數的不同測試分裂的ZSL準確性。從圖中可以看出,樣本總體大小與兩種模型的精度之間存在明顯的相關性,對於低樣本總體類,其精度較低。我們使用樣本總體作爲一個粗略的指標來快速過濾模糊的視覺類,只考慮樣本總體大於300幅圖像的類作爲我們建議的數據集中的有效候選類

4.3.2 按樣本選擇

即使在選定的類中,我們也發現了許多不一致和模糊的圖像,所以我們想按樣本進一步過濾測試圖像。但是,什麼是ZSL基準測試的良好候選映像呢?我們如何測量樣品的質量?我們認爲,ZSL基準測試應該只反映模型的零樣本能力:ZSL基準測試應該相對於標準非ZSL模型的準確性來評估ZSL模型的準確性。因此,我們將一個好的ZSL樣本定義爲一個足夠清晰的圖像,使其能夠被以監督方式訓練的標準圖像分類器正確分類。

4.4 數據集總結

在這裏插入圖片描述
圖6總結了我們分析的不同因素對我們的基線模型在“1跳”測試分割上的top-1分類錯誤的影響。在標準ZSL設置下,去除模糊圖像、模糊語義樣本和結構缺陷後,線性模型的誤差率從86%下降至61%。GCN模型對廣義設置的誤差率從90%下降到47%。


5. 結構偏置

ZSL型是受啓發於人類從一個純粹的描述中識別未知對象的能力,它通常是如下例所示:沒有見過斑馬,一個人能夠識別它,知道斑馬看起來像馬覆蓋着黑色和白色的條紋。這個例子說明了人類組合不同已知對象的視覺特徵來定義和識別以前未知對象類別的能力。

標準圖像分類vsZSL圖像分類

標準圖像分類器將類標籤編碼爲本地表示(one-hot嵌入),其中每個維度表示一個不同的可視類,如圖8所示。因此,標籤空間中的類之間不共享任何信息:可視類嵌入同樣遙遠且彼此正交。ZSL模型背後的主要思想是將可視類嵌入到分佈式表示中:在標籤空間中,可視類由類之間共享的多個可視特性(馬的形狀、條紋、顏色)定義。分佈式表示允許通過與已知類共享的可視特性組合來定義和識別未知類,其方式與上面描述的人類能力類似。
在這裏插入圖片描述
將可視化類嵌入到分佈式特徵表示中是非常強大的,因爲它允許通過組合從給定的訓練類集合中學習的一組可能很小的特徵來定義一定數量的組合測試類。因此,我們認爲,ZSL背後的關鍵挑戰是通過已知視覺特徵的組合來實現對未知類的ZS識別,遵循它們最初對人類能力的啓發,並儘可能通過分佈式特徵表示來實現。在本節中,我們將看到並不是所有ZSL問題都需要這種類型的組合能力。在標準基準測試中,我們展示了基於可視化類的本地表示的簡單解決方案優於基於word嵌入的現有方法。我們證明了這個平凡解是由標準測試分割的特定配置所實現的,並引入了結構偏差的概念來指代ZSL數據集中存在這樣的平凡解。

5.1 小例子

在這裏插入圖片描述

圖7演示了一個玩具ZSL問題,其中,給定一組Horse和TV monitor圖像的訓練集,目標是對Zebra和PC laptop的圖像進行分類。讓我們考慮在訓練集上訓練一個圖像分類器,並將其直接應用於來自測試集的圖像。因此,這個問題的一個簡單解決方案就是在測試類和它們最近的訓練類之間定義一個一對一的映射:Horse=Zebra和TV monitor=PC laptop。這個例子很明顯,並不是所有的ZSL問題都需要組合可視化特性來解決。

5.2 標準基準測試

在這裏插入圖片描述
平凡方案好於很多最好的方法。

5.3 測量結構偏置

在我們的玩具示例中,我們已經暗示了這樣一個事實,即對於測試類與訓練類相對相似的測試集,而測試類彼此之間(與它們的負集)的差異則相對更大,會出現結構性偏差。爲了證實這種直覺,我們定義瞭如下結構比:

r(c)=mincCtrd(c,c)mincCted(c,c)(5a) r(c) = \frac{min_{c' \in C_{tr}} d(c, c')}{min_{c' \in C_{te}} d(c, c')} \tag{5a}
R(Cte)1CtecCter(c)(5b) R(C_{te}) \frac {1} {|C_{te}|} \sum_{c \in C_{te} } r(c) \tag{5b}

在這裏插入圖片描述

其中 cc 表示一個可視類,CteC_{te}CtrC_{tr}分別表示測試集和訓練集,dd表示兩個類之間的相似性距離。其中r(c)r(c)表示 cc 與其最近的訓練類之間的距離與cc與其最近的測試類之間的距離之比。在我們的實驗中,我們使用Wordnet層次結構中兩個類之間的最短路徑長度作爲距離dd的度量,儘管不同的度量標準也值得研究。我們計算一個測試集的各個類的平均結構比 R(Cte)R(C_{te}) 作爲它的結構比。圖9顯示了基線模型在不同結構比RR的測試集上獲得的top-1精度。和之前的實驗一樣,我們給出了100個測試分割類的結果。

在低結構比的測試劃分中,平凡解的性能非常好,與目前最好的GCN模型的技術水平相當。這種測試分割類似於玩具示例,其中每個測試類都與一個訓練類緊密相關,而遠離Wordnet層次結構中的其他測試類。例如,我們的玩具例子中測試分割的結構比是R(Cte)=1/2×(2/4+2/4)=0.5R(C_{te}) = 1/2×(2/4 + 2/4)= 0.5,這對應於平凡解所達到的最高精度。我們說這樣的測試分割在結構上偏向於基於相似性的平凡解。

然而,基於相似性的平凡解的精度隨着結構比的增大而急劇下降,直到達到最高比率的近似概率精度爲止。因此,最大限度地提高測試分割的結構比似乎是一種有效的方法,以最小化結構偏差。雖然GCN模型和線性模型的精度隨着結構比的增大而降低,但它們仍然遠遠高於隨機模型。這些結果表明,基於詞嵌入的ZSL模型確實能夠進行組合推理。至少,它們能夠執行比基於簡單相似性的解決方案更復雜的ZSL任務。有趣的是,當平凡解收斂於隨機精度時,GCN模型的精度似乎收斂於ZSL基線的精度。這表明GCN模型成功的主要原因是它們有效地利用Wordnet層次結構來利用結構偏見。

標準基準的1跳和2跳測試分割由一組測試類組成,這些測試類與Wordnet層次結構中的培訓類最接近。這導致測試分裂非常低的結構比,類似於我們的玩具例子。例如,1跳測試拆分的結構比爲0.55。這是結構偏見的一個例子,甚至比我們的玩具例子更極端,因爲測試類要麼是訓練類的子類,要麼是訓練類的父類。


6. 新基準

6.1 提出的基準

兩步:
1) 去掉語義質量差的可視類、去掉樣本總體小的可視類、去掉歧義圖像
2)最小化結構偏置

6.2 評估

在這裏插入圖片描述


7. 總結和討論

ZSL對目標識別具有重要的現實意義。然而,對於任何計算機視覺任務,高質量基準的可用性是取得進展的先決條件。在本文中,我們指出了標準泛型對象ZSL基準的主要缺陷,並提出了一種新的基準來解決這些缺陷。更重要的是,我們引入了結構偏差的概念在語義空間中允許基於簡單相似性匹配的平凡解的ZSL數據集。我們鼓勵研究人員根據我們提出的基準評估他們過去和未來的模型。似乎合理的想法可能已經被拋棄了,因爲它們相對於從結構偏差中獲益最多的基準模型而言,性能較差。其中的一些想法可能值得今天重新審視。

最後,我們認爲對ZSL的目標和定義還需要進行更深入的討論。開發複雜模型來解決特徵不佳的問題存在風險:數學複雜性可能成爲複雜性的煙幕,混淆了ZSL背後的真正問題和關鍵挑戰。相反,我們認爲在ZSL研究的這個階段仍然非常需要基於常識的實際考慮。結構偏差的識別是正確描述ZSL問題的第一步。繼續討論的一個實際方法是調查其他ZSL基準的結構偏差。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章