Joint Deep Learning for Pedestrian Detection(2014)

1. Introduction

       行人檢測是汽車自動駕駛安全,機器人和智能視頻監控的關鍵技術。它吸引了大量的研究興趣[2,5,12,47,8]。這個任務的主要挑戰是 由行人的服裝,光照,背景,關節和遮擋等類內變化引起的

       爲了解決這些挑戰,一組相互依賴的組件是很重要的。首先,特徵應該捕捉行人的最具判別性的信息。衆所周知的特徵如Haar-like特徵[49],SIFT [29]和HOG [5]被設計爲對於類內變化是魯棒的,同時對類間變化保持敏感。第二,形變模型應該處理人體部件的關節如軀幹,頭部和腿部。 [17]state-of-the-art的可形變部件模型允許human parts to articulate with constraint。第三,遮擋處理方法[13,51,19]試圖確定遮擋的區域,並在確定窗口中是否存在行人時避免使用它們。最後,分類器決定候選窗口是否被檢測爲包圍一個行人。 SVM [5],boosted classifiers[11],隨機森林[9]及其變體常常被使用。

       雖然這些組件是相互依賴的,但它們的相互作用尚未得到很好的探索。目前,它們首先被單獨或依次的學習或設計,然後把它們放在一起,形成流程。這些組件之間的交互通常通過手動參數配置來實現。考慮以下三個例子。 (1)給定在[5]中使用的線性SVM分類器,HOG特徵單獨設計,參數通過手動調整選定,然後,當人們設計新的分類器時,HOG特徵變得固定[31]。 (2)在[17]中調整了幾個HOG特徵參數並固定,學習不同的部件模型[17,58]。 (3)通過固定HOG特徵和可變形模型,使用部分檢測分數作爲輸入,在[34,36]中學習遮擋處理模型。

         如圖1所示,本文的動機是在學習這些關鍵組件時建立自動交互。我們希望獲得聯合學習的組件,如具有團隊精神的成員,可以通過緊密的互動創造協同效應,併產生大於單獨學習的組件的性能。例如,學習良好的特徵有助於定位部件,同時,良好的部件定位有助於對於不同的部件學習更多判別性特徵。本文將這些關鍵組件的學習轉化爲統一的深度學習問題。深層模型特別適合於此任務,因爲它可以將這些組件組織到不同的層中,並通過反向傳播共同優化它們。
         本文作了以下三個主要貢獻。 

         1.用於聯合學習特徵提取的統一深度模型,部件形變模型,遮擋模型和分類。使用深層模型,這些組件在學習過程中相互交互,這允許每個組件在與其他部分合作時 最大化其能力。
         2.通過將形變層納入卷積神經網絡(CNN),我們豐富了深度模型的操作[26]。通過形變層,各種形變處理方法可以應用於我們的深層模型。
        3.通過與形變和遮擋處理模型的交互,從像素學習特徵。這種交互有助於學習更多的判別性特徵。


2.Related Work

       已經證明,深度模型在處理複雜任務時可能比淺層模型更有能力[3]。他們在計算機視覺方面取得了驚人進展[20,21,40,23,25,33,24,56,30,46,16,38]。用於行人檢測的深度模型集中於特徵學習[44,33],上下文信息學習[57]和遮擋處理[34]。
        許多特徵被用於行人檢測。Haar-like特徵[49],HOG [5]和dense SIFT [48]旨在捕捉行人的整體形狀。一階色彩特徵如顏色直方圖[11],二階色彩特徵如顏色自相似性(CSS)[50]和共現特徵[43]也用於行人檢測。 [51]中使用了像LBP這樣的紋理特徵。其他類型的特徵包括協方差描述符[47],深度[15],分割結果[13],3D幾何[22]及其組合[27,51,11,15,23,33]。上述所有特徵都是手動設計的。最近,研究人員已經意識到從訓練數據學習特徵的好處[1,33,44]。與HOG類似,它們使用局部最大池化或平均池化來對小的局部不對準是魯棒的。然而,這些方法沒有學習身體部位的多種變形特性。 [7]中的方法順序的學習特徵和基於部件的模型,而不是聯合的。

        由於行人具有非剛性形變,處理形變的能力能夠提高檢測性能。 [17,58,37,35]中使用可形變部件的模型來處理部件的平移運動。爲了處理更復雜的關節,部件的尺寸變化和旋轉被建模在[18]中,部件外觀和關節類型的混合在[4,55,6]中建模。在這些方法中,特徵是手動設計的。

        爲了處理遮擋,已經提出了許多方法來估計部件的可見度[13,51,54,53,45,27]。其中一些使用塊或部件的檢測分數[51,34,13,54]作爲可見度估計的輸入。一些方法使用其他線索,如分割結果[27,13]和深度[13]。然而,所有這些方法分別從特徵​​提取和部分模型中學習遮擋建模。

        廣泛使用的分類方法包括各種boosting分類器[9,11,53],線性SVM [5],histogram intersection kernel SVM [31],latent SVM [17],multiple kernel SVM [48],structural SVM [58]和概率模型[2,32]。在這些方法中,分類器適用於訓練數據,但是特徵是手動設計的。如果在特徵提取中丟失了有用的信息,那麼信息在分類過程中無法恢復。理想情況下,分類器應指導特徵學習。

        總之,以前的工作單獨或順序的處理這些組件。本文全面考察了這些組件,是行人檢測模型邁向聯合學習組件的重要一步。


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章