CVPR 2020 | 北航提出:通過由粗到精特徵自適應進行跨域目標檢測,表現SOTA!

性能優於PDA、MDA和SWDA等網絡。

作者團隊:北京航空航天大學

 

1 引言

 

 

 

近年來,在基於深度學習的目標檢測中見證了巨大的進步。但是,由於domain shift問題,將現成的檢測器應用於未知的域會導致性能顯著下降。爲了解決這個問題,本文提出了一種新穎的從粗到精的特徵自適應方法來進行跨域目標檢測

在粗粒度階段,與文獻中使用的粗糙圖像級或實例級特徵對齊不同,採用注意力機制提取前景區域,並通過多層對抗學習根據邊緣分佈對邊緣區域進行對齊。

在細粒度階段,通過最小化具有相同類別但來自不同域的全局原型的距離來進行前景的條件分佈對齊。

由於這種從粗到細的特徵自適應,前景區域中的領域知識可以有效地傳遞。在各種跨域檢測方案中進行了廣泛的實驗,結果證明了所提出方法的廣泛適用性和有效性。

 

2 主要思路及貢獻

  • 針對的問題:

目前的CNN模型在直接應用於新場景時,由於存在所謂的"域移位"或"數據集偏置"現象,導致性能下降。

 

  • 主要思路

本文作者提出了一個由粗到精的跨域目標檢測的特徵自適應框架。如下圖所示:

 

  • 問題一:考慮到與背景相比,不同域之間的前景具有很多的共同特徵。

    作者提出了一個基於注意力的區域轉移(ART)模塊來突出前景的重要性,它以一種不區分類的粗糙方式工作。利用高級特徵中的注意機制提取感興趣的前景目標,並在特徵分佈對齊時對其進行標記。通過多層對抗性學習,利用複雜的檢測模型可以實現有效的領域交叉。

 

  • 問題二:對象的類別信息會進一步細化前面的自適應特徵,在這種情況下,需要區分不同種類的前景目標。不過這在某些batch中可能會出現目標不匹配的情況,這使得UDA的語義匹配比較困難。
    作者使用了一個基於原型的語義對齊(PSA)模塊來構建跨域的每個類別的全局原型。原型在每次迭代中都進行自適應更新,從而抑制了假僞標籤和類不匹配的負面影響。

 

  • 主要貢獻:

•設計了一種新的由粗到精的自適應方法,用於跨域兩階段目標檢測,逐步準確地對齊深度特徵。

•提出了兩個自適應模塊,基於注意的區域轉移(ART)和基於原型的語義對齊(PSA)方法,利用類別信息學習前景區域的領域知識。

•針對一些典型的場景,在三個主要的基準上進行了大量的實驗,結果是最先進的,證明了所提方法的有效性。

 

3 網絡架構

 

如上圖所示,介紹了本文用於跨域對象檢測的功能適配框架,包含一個檢測網絡兩個適配模塊

 

3.1 檢測網絡 backbone

 

作者選了功能強大的Faster R-CNN 作爲基礎檢測器backbone。Faster R-CNN 是一個兩階段的檢測器,由三個主要組件組成:1)提取圖像特徵的骨幹網絡G,2)同時預測對象範圍和對象得分的區域提議網絡(RPN),以及3)興趣(RoI)頭,包括邊界框迴歸器B和分類器C以進行進一步細化.Faster R-CNN的整體損失函數定義爲:

 

3.2 適配模塊 Adaptation Modules

 

思路來源:
與大多數現有研究(通常會減少整個特徵空間中的域偏移)不同,作者採用的方法是在各個域之間共享更多共同屬性的前景上進行特徵對齊。同時,與當前將所有目標的樣本視爲一個整體的方法相反,作者認爲類別信息有助於完成此任務,從而突出顯示每個類別的分佈以進一步細化特徵對齊。
爲此,設計了兩個自適應模塊,即基於注意力的區域轉移(ART)基於原型的語義對齊(PSA),以實現前景中從粗到精的知識轉移。

 

3.2.1 ART:Attention-based Region Transfer

 

ART模塊旨在引起更多關注,以在前景區域內對齊兩個域之間的分佈。它由兩部分組成:域分類器和注意機制。

  • Domain 分類器

爲了對齊跨域的特徵分佈,作者將多個域分類器D集成到主幹網絡G的最後三個卷積塊中,在這裏構建了一個二人極大極小博弈。具體來說,域分類器D試圖區分特徵來自哪個域,而主幹網絡G旨在混淆分類器。在實踐中,G和D之間通過梯度反向層(Gradient Reverse Layer, GRL)進行連接,梯度反向層可以逆轉流過G的梯度。當訓練過程收斂時,G傾向於提取域不變的特徵表示。在形式上,第l-th卷積塊中對抗性學習的目標可以表示爲:

  • Attension 機制

要使用檢測任務對對目標進行本地化和分類,roi通常比背景更重要。然而,域分類器在沒有聚焦的情況下對整個圖像的所有空間位置進行對齊,這可能會降低自適應性能。爲了解決這一問題,作者又提出了一個注意機制來實現前向感知的分佈對齊,利用RPN中的高級特徵來生成注意力地圖,如圖3所示。


具體來說:

  1. 給定任意域中的圖像x,將Frpn(x)∈RH×W×C作爲FPN模塊中卷積層的輸出特徵圖,其中H×W和C分別爲特徵圖的空間維數和通道數。

  2. 通過對激活值進行跨通道的平均來構建一個空間注意圖。

  3. 過濾(設置爲零)那些小於給定閾值的值,這些值更有可能屬於背景區域。

  4. 由於注意圖的大小與不同卷積塊的特徵不一致,採用雙線性插值進行上採樣,從而得到相應的注意圖。

  5. 由於注意力地圖可能並不總是那麼準確,如果一個前地區域被誤認爲背景,它的注意力權重被設置爲零,則無法起到效果。因此,這裏在注意圖中添加了一個跳躍連接以增強其性能

注意圖A(x)∈RH×W可以表示爲:

 

最終的ART模塊的目標函數可以表示爲:

 

 

3.2.2 PSA:Prototype-based Semantic Alignment

 

PSA不是直接訓練分類器,而是嘗試最小化跨領域具有相同類別的一對原型(PSk,PTk)之間的距離,從而保持特徵空間中的語義一致性。形式上,原型可以定義爲:

原型的好處有兩方面:

(1) 原型沒有額外的可訓練參數,可以在線性時間內計算出來;

(2) 僞標籤的負面影響可以被原型生成時數量大得多的正確僞標籤所抑制。

注意:爲了解決同一批源圖像和目標圖像的前景目標可能存在類別不一致使得該batch中所有類的類別對不齊的問題,需要動態地維護全局原型,每個小批的本地原型類型自適應地更新這些原型,如下所示:

注意:不能直接對齊本地原型,而是縮小源全局原型GPSk和目標全局原型GPTk之間的距離,以實現語義對齊。在i-th迭代時,PSA模塊的目標可以表述爲:

 

 

3.3  網絡優化 Network Optimization

 

訓練的僞代碼如下圖所示:

主要包括三個parts:

  • 監督學習。監督檢測損耗Ldet只適用於帶標記的源域DS。

  • 粗粒度的適應。利用注意機制來提取圖像中的前景。然後,重點通過優化LART調整這些區域的特徵分佈。

  • 細粒度的適應。首先,在目標域中預測僞標籤。然後,進一步自適應地更新每個類別的全局原型。最後,通過優化LPSA實現了前臺對象的語義對齊。

因此,全局的目標函數可以統一爲:

4 實驗及結果

 

4.1 模型評估

 

在以下三種適應場景評估:

  • Normal-to-Foggy (Cityscapes→Foggy Cityscapes)

 

  • Synthetic-to-Real(SIM10k→Cityscapes)

 

  • Cross-Camera(Cityscapes→KITTI).
     

 

4.2 深入分析

 

  • 前景特徵分佈差異

 

  • 最高可信度檢測的誤差分析:

 

  • 定性結果:

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章