行人檢測論文筆記:Histograms of Oriented Gradients for Human Detection

相關知識點

  • 從TP、FP、TN、FN到ROC曲線、miss rate

    • TP:true positive,實際是正例,預測爲正例
    • FP:false positive,實際爲負例,預測爲正例
    • TN:true negative,實際爲負例,預測爲負例
    • FN:false negative,實際爲正例,預測爲負例

  • fnr+tpr=1, fpr+tnr=1
  • miss rate = FNR = 1 - true positive
    • 對於一個確定的閾值t,FPR和TPR是確定的,得到一個(fpr,tpr)元組。
    • 當t增加, # FP也減小, # TN增加,則fpr減小;
    • 當t增加, # TP減小, # FN增加,則tpr減小。
    • 也就是說,當閾值t從0變化到1,fpr和tpr也單調減小,從(1,1)減小到(0,0)
    • miss rate = 1 - true positive rate,那麼對應的YoX圖像,也就是miss rate - false positive rate圖像,就應當是單調下降的曲線。

Abstract

  • 定向梯度直方圖(HOG)描述符的網格顯著優於現有的人體檢測特徵集。
  • 在重疊描述符塊中的 精細尺度梯度精細定向分箱相對粗略的空間分箱高質量局部對比度標準化 對於良好的結果都是重要的。
  • 新的數據集

Introduction

  • 第一需求:robust feature set.
  • 我們研究了人類監測的特徵集問題,發現 本地歸一化的定向梯度直方圖(HOG) 描述符提供優異的性能相對於其他現有特徵集包括小波。
  • 提出的描述符讓人聯想到 邊緣方向直方圖 [4,5], SIFT描述符 [12]和 形狀上下文 [1],但與它們的不同點是:HOG描述器是在一個網格密集的大小統一的細胞單元(dense grid of uniformly spaced cells)上計算,而且爲了提高性能,還採用了重疊的局部對比度歸一化(overlapping local contrast normalization)技術。

Previous Work

Overview of the Method

  • The method is based on evaluating well-normalized local histograms of image gradient orientations in a dense grid.
  • 基本思想是,在一副圖像中,局部目標的 表象形狀 (appearance and shape)能夠被梯度或邊緣的方向密度分佈很好地描述,即使沒有對應的梯度或邊緣位置的精確知識。
  • 具體的實現方法是:首先將圖像分成小的連通區域,我們把它叫細胞單元(cell)。然後採集細胞單元中各像素點的梯度的或邊緣的方向直方圖。最後把這些直方圖組合起來就可以構成特徵描述器。
  • 爲了提高性能,我們還可以把這些局部直方圖在圖像的更大的範圍內(我們把它叫區間或block)進行對比度歸一化(contrast-normalized),所採用的方法是:先計算各直方圖在這個區間(block)中的密度,然後根據這個密度對區間中的各個細胞單元做歸一化。 通過這個歸一化後,能對光照變化和陰影獲得更好的效果。
  • 整體的物體檢測鏈:

  • 這些基於稀疏特徵的表示的成功有點遮蔽了HOG作爲密集圖像描述符的能力和簡單性。

  • HOG/SIFT表示方法有幾個優點。

    • 由於HOG方法是在圖像的局部細胞單元上操作,所以它對圖像幾何的(geometric)和光學的(photometric)形變都能保持很好的不變性,這兩種形變只會出現在更大的空間領域上。
    • 他捕捉了局部形狀非常具有特徵性的邊和梯度特徵。
    • 在局部表示中對局部的幾何和光度變換的不變性更容易控制。
    • 如果它們遠小於局部空間或方向倉尺寸,則平移或旋轉幾乎沒有差別。
  • 作者通過實驗發現,在粗的空域抽樣(coarse spatial sampling)、精細的方向抽樣(fine orientation sampling)以及較強的局部光學歸一化(strong local photometric normalization)等條件下,只要行人大體上能夠保持直立的姿勢,就容許行人有一些細微的肢體動作,這些細微的動作可以被忽略而不影響檢測效果。綜上所述,HOG方法是特別適合於做圖像中的行人檢測的。

Data Sets and Methodology

  • hard examples
  • Detection Error Tradeoff (DET) curves on a log-log scale. miss rate(1-Recall / FN/(TP+FN)) verses FPPW. 值越低越好。
  • DET圖和ROC圖提供的信息一眼,但是前者允許小概率更容易的去分佈。
  • FPPW:NUMBER_OF_FALSE_POSITIVE/NUMBER_OF_WINDOWS
  • 我們的DET曲線通常相當淺,所以即使非常小的缺失率的改善也等同於在不變缺失率下的情況下FPPW中的大增益。

Overview of Results

  • Generalized Haar Wavelets.
  • PCA-SIFT.
  • Shape Contexts.

Implementation and Performance Study

  • 默認檢測器:

    • RGB colour space with no gamma correction
    • [−1, 0, 1] gradient filter with no smoothing
    • linear gradient voting into 9 orientation bins in 0◦ –180◦
    • 16×16 pixel blocks of four 8×8 pixel cells
    • Gaussian spatial win- dow with σ = 8 pixel
    • L2-Hys (Lowe-style clipped L2 norm) block normalization
    • block spacing stride of 8 pixels (hence 4-fold coverage of each cell)
    • 64×128 detection window;
    • linear SVM classifier.
  • 主要的結論是,爲了良好的性能,應該使用細尺度導數(基本上沒有平滑),許多定向倉,中等大小,強歸一化,重疊的描述符塊。

Gamma/Colour Normalization

Gradient Computation

  • 最通常用的方法就是簡單的應用一個一維的離散的梯度模版分別應用在水平和垂直方向上去。可以使用如下的卷積核進行卷積:

Spatial / Orientation Binning(方向單元劃分)

  • 每個塊內的每個像素對 方向直方圖 進行投票
  • 每個像素基於以其爲中心的梯度元素的方向計算邊緣取向直方圖通道的 加權投票,並且投票被累積到在稱爲 單元 的局部空間區域上的 方向倉 中。
  • 每個塊的形狀可以是矩形或圓形的
  • 方向直方圖的方向取值可以是0-180度或者0-360度,這取決於梯度是否有符號。無符號梯度(0-180º),有符號梯度(0-360º)
  • 爲了減少混疊,投票在相鄰倉中心之間以取向和位置雙向內插。
  • 至於投票的權重,可以是梯度的幅度本身或者是它的函數。投票是像素處的梯度幅度的函數,或者是幅度本身、其平方、其平方根或者表示像素的邊緣的軟出現/缺失的幅度的限幅形式。在定向編碼對於良好的性能是至關重要的。
  • 梯度幅度本身通常產生最好的結果。其它可選的方案是採用幅度的平方或開方,或者幅度的裁剪版本。
  • Dalal和Triggs發現在人的檢測實驗中,把方向分爲 9個通道(bin) 效果最好

Normalization and Descriptor Blocks

  • 由於照明的局部變化和前景-背景對比度,梯度強度在可以在很寬範圍內變化。所以梯度強度必須要局部地歸一化,這需要把方格(cells)集結成更大、在空間上連結的區()
  • 有效的局部對比度歸一化 對於良好的性能是必不可少的。
  • 我們評估了多種不同的 歸一化schemes(normalization schemes) ,他們大多數都是基於將單元格(cells)分組成更大的空間塊(spatial blocks)* *並且對比地單獨對每個塊進行歸一化。
  • 最終描述符 是來自檢測窗口中的所有塊的歸一化單元響應的所有分量的 向量
  • R-HOG:R-HOG塊和SIFT描述符有許多相似之處,但是他們用途十分不同。

    • R-HOG跟SIFT描述器看起來很相似,但他們的不同之處是:

    • R-HOG是在單一尺度下、密集的網格內、沒有對方向排序的情況下被計算出來;

    • 而SIFT描述器是在多尺度下、稀疏的圖像關鍵點上、對方向排序的情況下被計算出來。
    • R-HOG是各區間被組合起來用於對空域信息進行編碼,而SIFT的各描述器是單獨使用的。
  • 它們在密集網格中以單個尺度計算而沒有主要取向對準,並且用作隱式地去編碼相對於檢測窗口的空間位置的較大代碼矢量的一部分,而SIFT在稀疏集合的 尺度不變關鍵點處 被計算,旋轉以對準它們的主導方向,並單獨使用。

  • SIFT被優化用於稀疏寬基線匹配,R-HOG用於空間形式的密集魯棒編碼。
  • R-HOG區塊一般來說是多個方格子組成的,由三個參數表示:

    • 每個區塊(block)有多少方格(cell)、
    • 每個方格(cell)有幾個像素(pixel)、
    • 每個方格(cell)直方圖有多少頻道(bin)。
  • 對於人體檢測,3x3的單元塊,6x6的像素單元塊兒表現最好,同時直方圖是9通道。

  • 當其太小(1×1單元塊,即,單獨取向上的歸一化)時,有價值的空間信息被抑制。

  • 在對直方圖做處理之前,給每個區間加一個高斯空域窗口是非常必要的,因爲這樣可以降低邊緣的周圍像素點的權重。

  • C-HOG

    • 每個空間單元包含梯度加權取向單元的堆疊而不是單個取向無關的邊緣計數。
    • 對數極座標網格最初是由允許附近結構的精細編碼與較寬上下文的粗略編碼相結合的思想,以及從靈長類動物的 視野V1皮層 的變換是 對數的
    • 然而,具有非常少的徑向箱的小描述符反而能給出最好的性能,因此在實踐中 幾乎沒有不均勻性或上下文
    • 我們評估了C-HOG幾何的兩個變體,一個具有 單個圓形中心細胞 (類似於[14]的GLOH特徵),以及中心細胞被分成 角形扇區的形狀上下文

  • C-HOG的4個參數:

    • the numbers of angular(角度盒子的個數);

    • the numbers of radias(半徑盒子個數)

    • the radius of the central bin in pixels(中心倉的半徑(以像素爲單位))
    • the expansion factor for subsequent (半徑的伸展因子)
  • 爲了良好的性能,最佳的參數設置爲:4個角度盒子、2個半徑盒子、中心盒子半徑爲4個像素、伸展因子爲2

  • 4像素是中央bin的最佳半徑,但3和5給出類似的結果。

  • C-HOG看起來很像基於形狀上下文(英語:Shape context)的方法,但不同之處是:C-HOG的區間中包含的細胞單元有多個方向通道,而基於形狀上下文的方法僅僅只用到了一個單一的邊緣存在數。[4]

  • Block Normalization schemes:引入v表示一個還沒有被歸一化的向量,它包含了給定區間(block)的所有直方圖信息。vk 表示 v 的 k 階範數,這裏的 k={1,2}。用 e 表示一個很小的常數。一共4種不同的塊規範化schemes

    • L2-morm,

    • L2-Hys, 它可以通過先進行L2-norm,對結果進行截短(clipping),然後再重新歸一化得到。

    • L1-norm,

    • L1-sqrt,L1-norm followed by square root

    • 作者發現:採用L2-Hys, L2-norm, 和 L1-sqrt方式所取得的效果是一樣的,L1-norm稍微表現出一點點不可靠性。

  • Centre-surround normalization.

Detector Window and Context

Classifier

最後一步就是把提取的HOG特徵輸入到SVM分類器中,尋找一個最優超平面作爲決策函數。作者採用的方法是:使用免費的SVMLight軟件包加上HOG分類器來尋找測試圖像中的行人。

Discussion

  • 在甲酸梯度前進行任何程度的平滑處理都會毀掉HOG的結果,因爲許多可供的圖像信息都是從細尺度的突出邊界形成的。
  • 詳單,梯度應該在當前金字塔層的最細可供尺度上被計算,修改或者用於方向投票並且只有在那之後在模糊空間。
  • 其次,強的局部對比正常化對於良好的結果至關重要,傳統的中心環繞樣式方案不是最好的選擇。
  • 更好的結果可以通過相對於不同的局部支持對每個元素(邊緣,單元)進行幾次標準化,並將結果作爲獨立信號來實現。

Summary and Conclusions

  • 我們研究了各種描述符參數的影響,並得出結論,在重疊描述符塊中的

    • 精細尺度梯度,
    • 精細定向binning,
    • 相對粗糙的空間binning
    • 高質量局部對比度歸一化 對於良好的性能都是重要的。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章