OLTR Large-Scale Long-Tailed Recognition in an OpenWorld

《Large-Scale Long-Tailed Recognition in an OpenWorld》

Ziwei Liu1;2 Zhongqi Miao2 Xiaohang Zhan1 Jiayun Wang2 Boqing Gong2y Stella X. Yu2
0摘要:

真實世界的數據通常有一個長尾和開放式的分佈。一個實際的認知系統必須對多樣本類別和少樣本類別進行分類,從少數已知的事例中歸納,對於從未見過的事例中識別爲新事物。我們將開放長尾識別(OLTR)定義爲從自然分佈的數據中學習,並在包含:1)頭、2)尾和 3)開放類的平衡測試集上優化分類精度。OLTR必須在一個集成的算法中處理不平衡的1)分類、2)少鏡樣本學習和3)開放集識別,而現有的分類方法只關注一個方面,在整個類譜中表現不佳。關鍵的挑戰是如何在頭類和尾類之間1)共享可視化知識,以及如何2)減少尾類和開放類之間的混淆。我們開發了一個集成的OLTR算法,它將圖像映射到一個特徵空間,這樣視覺概念就可以很容易地基於一個學會的度量,尊重封閉世界的分類,同時承認開放世界的新穎性。我們所謂的動態元嵌入結合了一個直接圖像特徵和一個相關的記憶特徵,特徵範數表示對已知類的熟悉程度。在我們從以1)對象爲中心的ImageNet、2)以場景爲中心的Places和3)以面部爲中心的MS1M數據中管理的三個大型OLTR數據集上,我們的方法始終優於最先進的技術。我們的代碼、數據集和模型使未來的OLTR研究成爲可能,並可通過https://liuziwei7.github.io/projects/LongTail.html.

1引言:

我們的視覺世界本質上是長尾開放的:我們日常生活中的視覺類別的頻率分佈是長尾[42],有一些常見的類和許多更少見的類,當我們在一個開放的世界中導航時,我們經常會遇到新的視覺概念。(長尾的典型是2-8分佈,即20%的類佔據80%的樣本,如20%的人擁有80%的財富)

圖1
圖1

自然的數據分佈包含head、tail和open類(圖1),而現有的分類方法大多集中在head[8,30]和tail[55, 27],通常在封閉的環境中[59,34]。傳統的深度學習模型善於捕捉head classes的大數據[26,20];最近,針對尾類的小數據開發了少量射擊學習方法[52,18]。我們正式研究了在自然數據設置中出現的開放長尾識別(OLTR)。一個實際的系統應該能夠在幾個常見的和許多罕見的類別中進行分類,從幾個已知的實例中概括出一個單一類別的概念,並在一個從未見過的類別的實例中承認新穎性。我們將OLTR定義爲從長尾和開放端分佈數據中學習,並在連續頻譜中通過包含頭、尾和開放類的平衡測試集來評估分類精度(圖1)。OLTR必須處理封閉世界中的不平衡分類和少樣本學習,但也有一種集成算法的開放集識別(表1)。現有的分類方法往往側重於一個方面,在整個類譜上表現不佳。(以往的重點是針對頭類,也就是大樣本的分類,最近少樣本也有了一些方法,但開放集還較少,該文章試圖用一個算法OLTR同時解決大樣本、少樣本、開放集識別問題)

OLTR的關鍵挑戰是尾部識別的魯棒性和開放集的靈敏度:當訓練實例的數量從在頭類中的數千個下降到在尾部類中的少數,識別精度應保持儘可能高;另一方面,當開放集的實例數下降到零時,識別精度依賴於區分未知開放類和已知尾部類的靈敏度。一個完整的OLTR算法應該解決連續類譜上的識別魯棒性和識別靈敏度這兩個看似矛盾的問題。爲了提高識別的魯棒性,必須在頭尾類之間共享視覺知識;爲了提高識別靈敏度,它必須減少tail和open類之間的混淆。我們開發了一種OLTR算法,該算法將圖像映射到特徵空間,這樣視覺概念就可以很容易地基於一個學會的度量,尊重封閉世界的分類,同時承認開放世界的新穎性。(這個魯棒性是指要能夠將出現很少的樣本分類出來#最好能夠像多樣本一樣魯棒#,儘量不要將他們分到未知類中#避免和未知類別混淆#,同時靈敏度又要將完全沒出現過的樣本識別出來#例如,提供拒絕選項#,儘量不要將他們分爲少樣本類,這爲什麼矛盾呢,因爲要實現魯棒性就很可能會將未知樣本誤分到少樣本類中,而靈敏度很可能會將少樣本分類到未知類中)

我們所謂的動態元嵌入通過結合兩個部分來處理尾部識別的魯棒性:1)從輸入圖像計算得到的直接特徵和與2)視覺記憶相關的誘導特徵。1)我們的直接特徵是一個標準的嵌入,通過對分類損失的隨機梯度下降對訓練數據進行更新。直接特徵對罕見的tail類缺乏足夠的監督。(缺少少樣本判別能力)2)我們的記憶特徵靈感來自於記憶的元學習方法[55,12,2],從圖像中增強直接特徵。視覺記憶具有直接特徵的區分中心。(加強少樣本判別能力)我們學會了從直接特性中檢索記憶激活的摘要,並將其結合到元嵌入中,該元嵌入特別針對tail類進行了豐富。我們的動態元嵌入通過根據視覺記憶動態校準元嵌入來處理開放識別敏感性嵌入與它到最近質心的距離成反比:離記憶越遠,離原點越近,越有可能是開放集實例。(加強開放集識別能力)我們也採用modulated 注意力[56]來鼓勵頭類和尾類使用不同的空間特徵集。由於元嵌入涉及頭類和尾類,我們modulated 的注意力保持了它們之間的區別。

我們做出了以下主要貢獻。1)我們正式定義了OLTR任務,它從自然長尾和開放端分佈數據中學習,並在一個平衡的測試集上優化整體準確率。它提供了在實際環境中對視覺識別算法的全面和無偏的評價。2)我們開發了一個動態元嵌入的OLTR算法。它通過將頭尾嵌入的視覺概念關聯起來來處理尾識別的魯棒性,通過根據視覺記憶動態校準嵌入規範來處理開放識別的敏感性。3)我們根據現有代表性數據集的長尾分佈來管理三個大型OLTR數據集:以對象爲中心的ImageNet、以場景爲中心的MIT Places和以面部爲中心的MS1M數據集。我們設置了適當的OLTR性能評估基準。4)我們在這些OLTR數據集上的廣泛實驗表明,我們的方法始終優於最先進的。

表1

2相關工作

雖然OLTR在文獻中沒有被定義,但有三個緊密相關的任務經常被單獨研究:不平衡分類、少鏡頭學習和開放集識別。表1總結了他們的差異。

不平衡的分類。它起源於自然數據的長尾分佈,已被廣泛研究[45,66,4,32,67,38,31,53,7]。經典的方法包括頭類的欠採樣、尾類的過採樣和數據實例的重加權。我們請讀者參閱[19]以獲得詳細的回顧。最近的一些方法包括度量學習[24,37]、 hard negative 挖掘[11,29]和元學習[17,59]。提升結構損失[37]在許多訓練實例之間引入了邊界。距離損失[64]使得同一類中的數據比較接近,而不同類中的數據比較遙遠。focal loss[29]引入了hard negative 挖掘的在線版本。MetaModelNet[59]從頭類中學習了一個元迴歸網,並用它爲尾類構造分類器。我們的動態元嵌入結合了度量學習和元學習的優勢。一方面,我們的直接特徵被更新,以確保不同類別的中心彼此遠離;另一方面,我們的記憶特徵是以元學習的方式即時生成,以有效地將知識轉移到尾部的類中。

Few-Shot學習。它通常被表述爲元學習[50,6,41,46,14,61]。匹配網絡[55]學習了一個可轉移的特徵匹配度量來超越給定的類。原型網絡[52]維護一組可分離的類模板。特徵hallucination [18]和增強[57]也是有效的。由於這些方法關注於新的類,因此對於head類來說,它們的性能通常會有一定程度的下降。也有一些例外。帶遺忘的少樣本學習的[15]和增量少樣本學習[43]試圖通過利用特徵和分類器權重之間的對偶性來彌補這個問題[40,39]。然而,在所有這些方法中使用的訓練集是平衡的。相比之下,我們的OLTR學習的是更自然的長尾訓練集。然而,我們的工作與快速權重和聯想記憶的元學習密切相關[22,49,55,12,2,36],以實現快速適應。與這些現有技術相比,我們的記憶特性有兩個優點:1)通過學習概念選擇器自適應地將知識傳遞給頭類和尾類;2)完全融入網絡,不需要經過片段式訓練,特別適合大規模應用。

開集的識別。開放集識別[48,3]或分佈外檢測[10,28],旨在重新校準開放類存在時的樣本置信度。其中一個典型的技術是OpenMax[3],它對分類器的輸出對數擬合一個威布爾分佈。但是,當open類和tail類同時存在時,分佈擬合可能會將二者混淆。本方法信將置信度估計融入到特徵學習中,並動態地將元嵌入w.r.t.重新縮放到學習後的視覺記憶中,而不是對輸出日誌進行校準。

3OLTR 模型

我們建議將一個圖像映射到一個特徵空間,這樣視覺概念可以很容易地相互關聯,基於一個學習的度量,尊重封閉世界的分類,同時承認開放世界的新穎性。我們的模型有兩個主要模塊(圖2):動態元嵌入和modulated注意力。前者在頭類和尾類之間聯繫和傳遞知識,後者在頭類和尾類之間保持區分。

3.1動態元嵌入

我們的動態元嵌入結合了一個直接的圖像特徵和一個相關的記憶特徵,特徵規範表示對已知類的熟悉程度。

考慮一個帶有softmax輸出層用於分類的卷積神經網絡(CNN),第二到最後一層可以看作特徵,最後一層是線性分類器。特徵和分類器以端到端方式從大數據中聯合訓練。讓v^direct表示從輸入圖像中提取的直接特徵。最終的分類精度很大程度上取決於該直接特徵的質量。雖然前饋CNN分類器可以很好地處理大的訓練數據[8,26],但是在我們的尾部類中,它缺乏對小數據進行足夠的監督更新。我們建議用一個記憶特徵v^memory來豐富直接特性v^direct,它與記憶模塊中的可視概念相關。這種機制與元學習中流行的記憶機制相似[46,36]。我們將得到的特徵元嵌入表示爲v^meta,並將其送入最後一層進行分類。我們的記憶特徵v^memory和元嵌入v^meta都依賴於直接特性v^direct

與直接特徵不同的是,記憶特徵從訓練類別中獲取視覺概念,從一個較淺的模型中檢索。

學習視覺記憶M 在類結構分析上遵循[23],以判別中心爲基本構件。設M表示所有訓練數據的視覺記憶,,其中K爲訓練類個數。與其他方法相比[60,52],這種記憶對我們的OLTR任務很有吸引力:它幾乎毫不費力,與直接特徵一起共同學習,而且它考慮了類內緊湊性和類間差別.

我們分兩步計算質心。1)鄰域抽樣:在訓練過程中,我們對類內和類間樣本進行抽樣,組成一個小批量。這些示例根據它們的類標籤進行分組,每個組的質心c_i通過這個小批的直接特徵進行更新。2)傳播:交替更新直接特徵v^direct和質心,使每個直接特徵與其羣質心的距離最小,與其他質心的距離最大。

組合記憶功能v^memory 對於一個輸入圖像,v^memory需要在訓練數據不足(如tail類)的情況下增強它的直接特徵來更好地學習它。記憶體特徵將記憶體中的質心聯繫起來,將知識傳遞給尾部類。

其中爲直接特徵產生的係數。我們使用一種輕量神經網絡從直接特徵得到係數,

獲取動態元嵌入v^meta v^meta結合了直接特徵和內存特徵,送入分類器進行最終的類預測(圖3)。

其中表示逐元素的點乘法。對於封閉世界的分類任務來說,似乎是一個多餘的標量。然而,在OLTR設置中,它在區分訓練類別示例和開放集示例方面起着重要作用。測量輸入直接特徵v^direct到記憶M的可達性[47]——直接特徵與判別中心之間的最小距離

當爲小時,輸入很可能屬於一個從其中導出質心的訓練類,並給得到的元嵌入vmeta賦一個較大的可達權值1=。否則,嵌入被縮小到一個幾乎全零向量在極端。這樣的屬性對於編碼開放類很有用。

我們現在在Eq.(2)中描述概念選擇器e。直接特徵對於數據豐富的頭類來說已經足夠好了,而記憶特徵對於數據貧乏的尾類來說就更重要了。爲了以一種軟的方式自適應地選擇它們,我們學習了帶激活函數的一種輕量級網絡

3.2Modulated注意力

動態元嵌入促進了頭類和尾類之間的特徵共享,同時區分頭類和尾類也至關重要。直接特性v…^direct,例如ResNet[20]中倒數第二層的激活,可以在一定程度上滿足這一需求。但是,我們發現空間注意力有助於進一步增強它,因爲頭類和尾類的判別線索似乎分佈在圖像的不同位置。

特別地,我們提出Modulated注意力鼓勵不同類的樣本使用不同的上下文。首先,我們利用自相關[56]算法從輸入的特徵圖中計算出一個自注意圖SA(f)。它用作上下文信息,並(通過跳躍連接)添加回原始的特徵圖中。然後將Modulated注意力MA(f)設計成條件空間注意力應用於自我注意力圖MA(f)SA(f),讓例子選擇不同的空間背景(圖4)。最終的注意力特徵圖變成

f是CNN的特徵圖,SA(f)是自注意力函數,MA(f)是帶softmax正則化的條件注意力函數。第4.1節的經驗表明,我們的注意設計比通常將空間注意應用於輸入特徵圖的做法取得了更好的效果。這種Modulated注意力(圖4b)可以插入CNN的任何特徵層。在這裏,我們只修改最後一個特徵圖。

3.3學習

餘弦分類器 我們採用餘弦分類器[39,15]來產生最終的分類結果。具體來說,我們規範元嵌入{v^meta_n},n代表第n個輸入以及分類器的權值向量

元嵌入的歸一化策略是一種非線性壓縮函數[44],它可以保證小量值的向量被壓縮到幾乎爲零,而大量值的向量被歸一化到略小於1的長度。這個函數有助於放大可達性的效果(參見Eq.(2))。

損失函數 

由於我們所有的模塊都是可微的,我們的模型可以通過交替更新中心和動態元嵌入v^meta_n來進行端到端訓練。最終損失函數L是交叉熵分類損失L_CE和嵌入件與質心之間的大邊緣損失L_LM的組合.

在我們的實驗中,通過觀察驗證集上的準確性曲線,將設置爲0.01。

4實驗

數據集:我們策劃了三個開放的長尾基準,分別是ImageNet-LT(以目標爲中心)、Places-LT(以場景爲中心)和MS1M-LT(以面部爲中心)。

網絡架構:scratch ResNet-10[20]作爲ImageNet-LT的主幹網絡。爲了與[59]進行比較,我們使用預先訓練好的ResNet-152[20]作爲place - lt的主幹網絡。對於MS1M-LT,流行的預訓練ResNet-50[20]是主幹網絡。

評價指標:top-1分類準確率,大樣本分類準確率(每類訓練樣本100+),中等樣本分類準確率(每類訓練樣本20-100),少樣本分類準確率(每類訓練樣本20-)。F-score(開放集)

比較方法: 

(1) metric learning: Lifted Loss [37],

(2) hard negative mining: Focal Loss [29],
(3) feature regularization: Range Loss [64],

(4) few-shot learning: FSLwF [15],

(5) long-tailed modeling: Meta-ModelNet [59], and

(6) open-set detection: Open Max [3].

4.1Ablation Study

首先研究了框架中每個模塊的優點。在ImageNet-LT上,性能報告具有開集top- 1分類精度。

動態元嵌入的有效性。回想一下,動態元嵌入由三個主要組件組成:記憶特徵、概念選擇器和置信度校正器。從圖5 (b)中,我們觀察到記憶特徵和概念選擇器的結合導致了所有三個場景的巨大改進。這是因爲獲得的記憶特徵在類之間傳遞了有用的視覺概念。另一個觀察結果是,置信度校正器在很少樣本場景的類中是最有效的。置信度校準器內的可達性估計有助於區分尾類和開放類。

Modulated注意力的有效性。我們從圖5 (a)中觀察到,與中樣本場景級別相比,Modulated注意力有助於區分多樣本場景級別和少樣本場景級別。圖5 (c)進一步驗證了Modulated注意力比直接在特徵圖上應用空間注意力更有效。這意味着自適應上下文選擇比傳統的特徵選擇更容易學習。

可達性校準的有效性。爲了進一步證明可達性校準用於開放世界設置的優點,我們根據[21,28](CIFAR100 + TinyImageNet(resize))中的標準設置進行了額外的實驗。結果列在表2中,其中我們的方法比標準的開集方法表現出更好的性能[21,28]。

4.2結果比較 

我們在基準測試中廣泛地評估了各種代表性方法的性能。

ImageNet-LT. 表3 (a)給出了不同方法的性能比較。我們有以下幾點看法。首先,提升損失[37]和焦點損失[29]通過加強特徵正則化,極大地提高了少樣本分類的性能。但是,它們也犧牲了在多樣本分類上的性能,因爲它們沒有內建的機制來自適應地處理不同場景的樣本。其次,OpenMax[3]提高了開放設置下的結果。但是,在開放集條件下,同時考慮了查全率和查準率的f-measure,計算結果的準確性會下降。當開放類與尾部類複合時,執行[3]要求的分佈擬合就變得具有挑戰性。最後,雖然包含forgetting的少樣本學習方法[15]保留了多樣本分類的準確性,但它難以處理當前少樣本範式中缺乏的不平衡基類。如圖6所示,我們的方法對所有多/中/少樣本類以及開放類進行了全面的處理,在各方面都取得了實質性的改進。

Places-LT. 如表3 (b)所示,在Places- LT基準上也可以得到類似的觀察結果。由於基線更強(即預先培訓的ResNet-152),我們的方法仍然始終優於其他替代方法,無論是在閉集還是開集設置。在f-measure下,這種優勢更爲深遠。

MS1M-LT. 我們對MS1M-LT數據集進行訓練,並報告MegaFace識別跟蹤的結果,這是人臉識別領域的一個標準基準。由於訓練集和測試集中的人臉身份不相交,我們採用間接的方法將測試集劃分爲不同場景的子集。我們通過至少計算一個閾值(特徵相似度大於0.7)來近似每個測試樣本的僞鏡頭。除了多樣本,少樣本、一樣本,我們也獲得zero-shot子集,我們找不到任何足夠相似的樣本訓練集,它可以觀察到,我們的方法有最優勢的一次性身份(3.0%收益)和zero-shot身份(1.8%收益)如表4所示(左)。

SUN-LT. 爲了與[58]和[59]直接比較,我們還測試了他們提供的SUN-LT基準。最終結果列在表4(右)中。該方法不需要學習一系列的分類器轉換,而是在特徵之間傳遞視覺知識,比之前的最佳算法提高了1.4%。注意,由於元模型網[59]需要遞歸的訓練過程,我們的方法也帶來了更少的計算成本。

Indication for Fairness.這裏我們報告了MS1M-LT上的敏感屬性性能。表4的最後兩列表明,我們的方法在男性和女性子羣體上都取得了全面的改善,這對有效的公平學習具有啓示意義。

4.3進一步分析

最後,我們對框架中一些影響因素以及典型故障案例進行了可視化和分析。

注入了什麼樣的記憶特徵。 在這裏,我們通過可視化其頂部激活神經元來檢查記憶特徵注入的視覺概念,如圖7所示。具體來說,對於每個輸入圖像,我們識別出其記憶特徵中的前3個轉移神經元。每個神經元在整個訓練集中,通過一組最高激活的patch來顯示[62] 。 例如,在對左上方屬於尾類公雞的圖像進行分類時,我們的方法已經學會了轉換分別代表鳥頭、圓形和點狀紋理的視覺概念。特徵注入後,動態元嵌入的信息量和鑑別性增強。

數據集長尾性的影響。數據集的長尾性(例如類分佈的不平衡程度)會對模型性能產生影響。爲了更快地調查,在這裏骨幹網絡的權值在訓練期間被凍結。從圖8 (a)中,我們觀察到隨着數據集變得更加不平衡(即power value下降),我們的方法只經歷了適度的性能下降。動態元嵌入使得數據豐富類和數據稀缺類之間能夠有效地進行知識轉移。

開集問題的影響。閾值。開放集概率閾值的性能變化如圖8 (b)所示。與普通模型[20]和距離損失[64]相比,我們的方法的性能隨着開放集閾值的增大而穩定變化。我們框架中的可達性估計器幫助校準樣本的置信度,從而增強了開放類的健壯性。

開放類的數量影響。最後研究了開放類的數量對性能的影響。圖8 (c)表明,我們的方法對開放類的contamination具有很強的魯棒性。

失敗案例。由於我們的方法鼓勵在類之間注入特性,因此它略微犧牲了細粒度的區分,以促進代表性不足的類。我們的方法的一個典型的失敗案例是混淆了多樣本類和中樣本類。例如,圖7中右下角的圖像被誤分類爲飛機,因爲注入了鼻型、眼型等交叉類別特徵。我們計劃探索[5]的特性分離,以減輕這種權衡問題。

總結

介紹OLTR任務可以從自然長尾開放式分佈式數據和優化整體精度平衡測試集。我們提出一個綜合OLTR算法,動態meta-embedding,爲了分享視覺的知識之間的頭和尾類和減少尾和開放類之間的混淆。我們在三個大型OLTR基準測試(ImageNet-LT、Places-LT和MS1M-LT)上驗證了我們的方法。我們公開的代碼和數據將使未來的研究能夠直接應用到實際應用中。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章