論文閱讀筆記《LSTD: A Low-Shot Transfer Detector for Object Detection》

核心思想

  本文提出一種基於遷移學習的小樣本目標檢測算法(LSTD)。常見的遷移學習方法就是在一個大規模的數據集,也稱作源數據集(source domain)上進行預訓練,然後再在小樣本數據集,也稱作目標數據集(traget domain)上進行優化訓練,以實現小樣本目標檢測任務。作者指出如果採用現有的目標檢測網絡直接在小樣本數據集上做遷移學習存在許多問題,因爲少量的訓練樣本很難消除分類和檢測之間的任務差異,而且容易產生過擬合的問題。因此作者結合了SSD和FasterRCNN兩種算法的優勢,提出一種適用於小樣本學習的遷移檢測器,並提出一種利用背景抑制(Background Depression,BD)和遷移知識(Transfer Knowledge,TK)的正則化方法。整個網絡的處理過程如下圖所示
在這裏插入圖片描述
  首先看圖中紅色底的部分,這是本文的主體結構。作者將目標檢測任務分成定位和識別兩個階段,在定位階段採用SSD算法中的邊界框迴歸策略(bounding box regression),具體而言,就是圖像經過一個深層的卷積神經網絡進行特徵提取,對於其中某些特定的卷積層,在特徵圖的每個位置上都會有一定數量的缺省候選框(這些候選框的尺寸和比例各不相同),如果候選框內包含有目標物體,那麼則會利用平滑的L1損失函數對候選框與真實的邊界框(ground truth)之間的偏移進行懲罰,這個偏移包括候選框中心位置的偏移和候選框寬和高的偏差。在對候選框內的物體進行分類時,也不是直接對所有候選框內的物體都進行多分類,而是經過一個由粗到精的過程,先進行一個二分類,判斷候選框內是否有目標物體,然後再利用Faster RCNN裏設計的感興趣區域池化層(ROI Pooling),對特徵提取過程中的中間階段的特徵圖上候選框內的區域進行池化,得到對應的特徵向量,然後進行分類。本文采用卷積層取代了原有的全連接層,這樣進一步減少了過擬合的風險。作者認爲這個由粗到精的分類過程能夠更好的利用源數據集(source domain)的信息,因爲雖然二分類器是在源數據集上訓練得到的,與目標數據集中的物體類別並不相同,但是相對於背景而言,物體和物體之間肯定還是更相似一些(比如源數據集中包含貓,而目標數據集包含狗,二者雖然不相同,但是兩者之間的相似性,肯定大於貓和天空之間的相似性),因此二分類器不能準確的預測物體類別,但能初步判斷候選框內是否包含物體。
  在上述易於小樣本遷移學習的目標檢測主體網絡的基礎上,爲了進一步提高檢測的效果,作者又提出了一種正則化方法,該正則化方法包含兩個正則化項:背景抑制LBD\mathcal{L}_{BD}和遷移知識LTK\mathcal{L}_{TK},如下式所示
在這裏插入圖片描述
  背景抑制。如圖中紫色底部分所示,爲了減少雜亂的背景對於目標檢測的干擾,作者取出特徵提取中間階段的部分特徵圖,並且用真是目標框對其做掩碼操作,不在目標框內的部分就當作背景FBDF_{BD},然後利用L2正則化項對其進行抑制。這樣做的目的是爲了減少背景區域的響應,而增加目標區域處的響應,網絡會傾向於在背景區域處輸出0值,否則就會受到懲罰。
在這裏插入圖片描述
  遷移知識。在遷移學習過程中,特徵提取,邊界框迴歸,二分類等過程都可以利用在源數據集上預訓練得到的結果作爲初始化,但因爲源數據集和目標數據集所包含的物體類別和數量都不相同,所以最後的多分類階段無法利用源數據預訓練的結果,只能從隨機狀態開始初始化。如何讓多分類階段也能利用源數據集中的信息呢?作者發現雖然源數據集和目標數據集包含物體類別不同,但是二者之間還是存在一些相似性的(如上文提到的貓和狗的例子,或文中提到的棕熊和公牛的例子)。於是作者用源數據集上訓練得到的多分類器(爲方便表述,我們稱其爲CsC_s)對目標數據集中的圖像進行分類,雖然分類的結果肯定的不對的(因爲源數據集中壓根不包含這類物體),但是可以預測出一個最爲相似的結果(由一個向量表示psτp^{\tau}_s)。然後,修改了目標分類器CtC_t的結構,在原來的基礎上增加一個源數據集的分類器CsC_s',使得在目標數據集上進行訓練時,可以同時獲得目標分類器和源分類器的兩個結果。注意此處的源分類器CsC_s'的參數是隨機初始化的,不是在源數據集上預訓練得到的,與上文提到的CsC_s只是結構相同,而參數不同。最後計算兩個源分類器預測結果psτp^{\tau}_sppreτp^{\tau}_{pre}之間的交叉熵損失,作爲遷移知識正則化項。這樣做的好處就是雖然兩個分類器預測結果都不是正確的,但是我們希望讓CsC_s'預測的結果與CsC_s的結果儘可能的相似,這就相當於用源數據集預訓練的結果來引導目標分類器的訓練。
在這裏插入圖片描述

實現過程

網絡結構

  定位階段採用SSD網絡的結構,分類階段採用了Faster RCNN網絡的結構。

損失函數

  包含三項:邊界框迴歸損失項採用平滑的L1損失,由粗到精的分類損失項(一般採用交叉熵損失函數)和正則化項(如上文所述)

訓練策略

  首先在大規模數據集上進行預訓練,然後在小樣本數據集上作優化訓練。

創新點

  • 結合SSD和Faster RCNN兩者的優點,提出一種適用於遷移學習的小樣本目標檢測算法LSTD
  • 提出背景抑制和遷移知識兩個正則化方法,進一步提高了目標檢測的效果

算法評價

  本文是較早的開展小樣本目標檢測問題研究的文章,充分地利用了目標檢測領域兩大算法SSD和Faster RCNN地優勢(多級邊界框迴歸策略和由粗到精地分類策略),降低了在小樣本數據集上進行遷移訓練地難度。在此基礎提出地背景抑制正則化項,有效地降低了背景區域地相應,使定位網絡將更多的注意力集中在目標所在區域;而遷移知識正則化項,則是充分利用源數據集中獲取的知識,用於輔助目標分類器的訓練。作者提出的幾個設計都非常具有創新性,爲小樣本目標檢測算法的研究奠定了良好的基礎。

如果大家對於深度學習與計算機視覺領域感興趣,希望獲得更多的知識分享與最新的論文解讀,歡迎關注我的個人公衆號“深視”。在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章