Rethinking the Route Towards Weakly Supervised Object Localization 論文筆記

前言

通常來說,深度學習在一些計算機視覺任務上的應用,比如分類、定位和檢測,需要大量精確標註的數據,而模型在這些數據集上進行預訓練之後,並不能直接應用到其它的任務中。爲了減少這種限制,人們開始利用弱監督方法來進行學習,弱監督的訓練數據一般只有image-level標籤,沒有大型數據集中的location-level(bbox和關鍵點)和pixel-level(每個像素都有一個類標籤,用於語義分割)標籤,因此很容易獲得。在弱監督任務中,弱監督目標定位(WSOL)是最實際的任務,因爲它只需要在給定類標籤的情況下對目標定位。在WSOD中,假設圖像中只有一個目標。

但是,作者通過實驗發現,WSOL中的定位部分應該是類不可知的,即與類標籤無關。基於此,本文將WSOL分爲兩個獨立的子任務:類不可知目標定位與目標分類,如下圖所示,稱爲僞監督目標定位(Pseudo Supervised Object Localization,PSOL):
在這裏插入圖片描述
在先前的WSOL方法中,需要最終生成的特徵圖來產生bbox;而在PSOL方法中,首先通過DDT生成僞監督gt bbox,也就是不準確的bbox,然後在這些bbox上進行迴歸。PSOL去掉了WSOL中僅能有一個全連接層作爲分類權重的限制,並且解決了定位與分類耦合導致的取捨問題。

本文的貢獻如下:

  • 證明WSOD應該被分爲兩部分:類不可知目標定位與目標分類,提出PSOL以解決WSOL中存在的問題;
  • 雖然生成的bbox有偏差,但作者認爲應該直接對它們進行優化,而不需要類標籤;
  • 不需要fine-tuning,PSOL方法也能在不同的數據集上擁有良好的定位遷移能力。

WSOL的缺點

目前的WSOL方法是在給定類標籤的情況下生成bbox,它有以下幾個缺點:

  • 學習目標不明確,導致定位的性能下降。HaS和ADL表明當僅有一個CNN模型時,定位和分類不能同時進行。定位需要目標的全局特徵,它是將整個目標的位置表示出來,而分類只需要目標最具有判別性的部分,也即只需要目標的局部特徵。
  • CAM需要存儲一個三維特徵圖用於計算類別的heatmap,然後來通過閾值進行過濾,而這個閾值非常難確定。

受到selective search和Faster R-CNN中生成ROI這個類不可知過程的啓發,本文將WSOL分爲兩個獨立的部分,並基於此提出PSOL,PSOL直接在生成的僞gt bbox上優化定位模型,因此解決了WSOL中的缺點。


PSOL方法實現

PSOL的通用框架如以下算法所示:
在這裏插入圖片描述

1. 僞bbox的生成

WSOL和PSOL最大的不同在於爲訓練圖像生成僞bbox。在考慮僞bbox的生成時,我們自然而然的會想到檢測,因爲檢測模型可以直接生成bbox和類標籤。但是,最大的檢測數據集中只有80個類,因此不能在一些更大的數據集上(如ImageNet-1k)提供通用目標定位;而且目前的一些檢測器,比如Faster R-CNN需要大量的計算資源和較大的輸入圖像大小,這使得檢測模型不能在大規模數據集上被用於bbox的生成。

既然檢測模型不行,那麼我們可以試着用一下別的定位方法來爲訓練圖像生成bbox,比如弱監督和協同訓練方法:

WSOL方法

目前的WSOL方法生成bbox的流程如下:

  • 首先圖像II被送入網絡FF中,生成最終的特徵圖GGGRh×w×d=F(I)G \in \Bbb R^{h \times w \times d}=F(I)GG通常是最後一個卷積層生成的特徵圖;
  • 然後GG在經過全局池化和最終的全連接層之後,得到標籤LpredL_{pred},根據LpredL_{pred}或gt標籤LgtL_{gt},得到特定類別在最終全連接層中的權重WRdW \in \Bbb R^d
  • 然後對GG的空間位置進行channel-wise的加權求和並得到特定類的heatmap Hi,j=k=1dGi,j,kWkH_{i,j}= \sum^d_{k=1} G_{i,j,k}W_k
  • 最後對HH進行上採樣到原始輸入大小,使用閾值過濾並生成最終的bbox。

DDT

一些協同監督的方法也可以在定位任務上表現出良好的性能。DDT就是其中之一,它不僅性能好,而且與其他協同監督方法相比,需要的計算資源也少。DDT生成bbox的流程如下:

  • 給定一個圖像集SS,包含nn個圖像,每個圖像ISI \in S的標籤相同,或包含相同的目標。通過一個經過預訓練的模型FF生成最終的特徵圖GRh×w×d=Rhw×d=F(I)G \in \Bbb R^{h \times w \times d}= \Bbb R^{hw \times d}=F(I)
  • 然後這些特徵圖集合到一起得到一個更大的特徵集GallRn×hw×d=Rnhw×dG_{all} \in \Bbb R^{n \times hw \times d}= \Bbb R^{nhw \times d},在深度維度上使用主成分分析(PCA),得到特徵值最大的特徵向量PP
  • 然後對GG的空間位置進行channel-wise的加權求和並得到特定類的heatmap Hi,j=k=1dGi,j,kPkH_{i,j}= \sum^d_{k=1} G_{i,j,k}P_k
  • 然後對HH進行上採樣到原始輸入大小,通過零閾值過濾和最大連通區域分析得到最終的bbox。

本文就是使用WSOL和DDT方法來生成僞bbox。

2. 目標定位

在生成僞bbox之後,接下來就是進行目標定位,使用bbox迴歸進行精調。有兩種bbox迴歸方法:單類別迴歸(SCR)和每個類都回歸(PCR),由於PCR非常依賴類標籤,而本文強調定位是類不可知任務,因此這裏採用SCR。

設bbox爲(x,y,w,h)(x,y,w,h),其中x,yx,y是bbox的左上角座標,wwhh分別是寬和高。首先將x,y,w,hx,y,w,h轉換爲x,y,w,hx^*,y^*,w^*,h^*,其中x=xwi,y=yhi,w=wwi,h=hhix^*= \frac{x}{w_i},y^*= \frac{y}{h_i},w^*= \frac{w}{w_i},h^*= \frac{h}{h_i}wiw_ihih_i分別是輸入圖像的寬和高。然後使用兩個全連接層和對應的ReLU層精心迴歸。最終通過sigmoid得到激活輸出。使用均方誤差損失(l2l_2 loss)。


結論

本文提出了一種僞監督目標定位方法(PSOL)來解決目前的弱監督目標定位方法(WSOL)中存在的問題。該方法將定位與分類分爲兩個獨立的網絡,在訓練集上通過DDT生成僞gt bbox進行訓練。實驗表明PSOL方法分開訓練確實比聯合訓練要好,說明定位和分類學習到的內容是不同的,WSOL確實應該分爲兩個獨立的模型。

作者還提出未來的工作:試着將定位與分類整合到一個CNN模型中;試着提升生成的bbox的質量;應該去探索新的網絡結構或定位問題的算法。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章