Exemplar-SVMs for Object Detection and Beyond--Overview(一)

Reference:

[1] Ensemble of Exemplar-SVMs for Object Detection and Beyond,ICCV 2011Carnegie Mellon University

[2] Exemplar-based Representations for Object Detection, Association and Beyond PHD thesis,2011

[3] Probabilistic outputs for support vector machines and comparisons to regularized likelihood methods 1999

[4] Image Retrieval and Classification Using Local Distance Functions NIPS 2007UC Berkeley

[5] Recognition by Association via Learning Per-exemplar Distances CVPR 08Carnegie Mellon University

[6]The proactive brain: using analogies and associations to generate predictions

Codehttp://people.csail.mit.edu/tomasz/

HOG:Opencv HOG行人檢測 源碼分析(一)

DPM: DPM(Deformable Parts Model)原理

Overview

"Restricting the representations derived from scenes to being conceptual amounts to imposing a severe handicap on the visual system"

Shimon Edelman

對於分類問題,我們早已習慣,先分類標號,選擇分類器訓練,然後識別,根本沒有想過還有沒有其它方式。認知學的研究表明,大腦對於新事物的識別一個看"它像什麼"的問題,而不是直接分類判斷"它是什麼"的問題。我們是通過和它最像的物體的信息來得知它是什麼。英語中的recognition是re- cognition即再認知,再字即體現了參考先例的含義。扯得有點遠了,有機會再把認知科學的觀點整理一下有興趣的可以看看文獻[6]。本文遵照相似性劃分正樣本,而不是按照範疇類別劃分,本文將這一點引入傳統的統計學習方法,提出了Exemplar-SVM,屬於instance-based methods。

上圖的左邊是一般的參數化方法的訓練模式,比如HOG模板,將所有正樣本和負樣本放一起,尋求一個分界面。這種模式認爲正樣本是可以參數化的,可以用一個模型來表示,簡而言之,認爲正樣本長得都很像。右邊是本文提出的方法。它不是將所有正樣本放在一起和負樣本訓練,而是每個正樣本和所有不包含正樣本的純粹負樣本放在一起訓練。作者認爲正樣本是完全無法參數化的,即它們之間差異太大,因此每個正樣本都應該自立門戶形成各自的exemplar SVM ,而不是將正樣本籠統的放在一起訓練一個粗糙的category SVM 。

這種思想很極端,也很反常規,完全不顧正樣本的共性,完全尊重它們的個性。這也是爲什麼這篇論文跟我要做的方向相關性不是很大,但是我卻依然看得很仔細的原因。

這種做法可以最大程度地應對目標的各種形變。文獻[4]說明了考慮個性的重要性:

Advantages

左邊是HOG模板這類Category detector 的檢測結果,我們能得到的僅僅只是Bus粗略的bounding box ,而右下角是Exemplar-SVM的檢測結果,與其最相近exemplar是紅色雙層公交車,而這輛車事先就標記了粗略的分割,幾何圖形,甚至3D模型。因此後續如果做分割,三維重建等就特別方便。

總之,拋開識別率,複雜性,我們能得到的信息會更多。

Related

圖 1

  1. k Nearest Neighbor

圖 2

kNN算法非常直觀,民主投票,我們就只參考周圍大多數人的意見,比如我們周圍參考3個人的意見,那麼圖中的綠色圓就劃分爲三角形一類,如果參考周圍5個人的意見那它就劃分爲正方形一類。

k 自然就是參考樣本的個數,當k=1時,就變成最鄰近分類器了也就是NN。

很明顯,對每一個測試樣本,kNN需要和所有訓練樣本集都算一遍距離,然後找到k個距離最新的樣本做參考,計算量特別大,此外分類的時候還需要保存訓練集的樣本,耗內存(屬於memory-based learning),而且這種方法本身正確性也不高

  1. Per-exemplar distance functions

這種方法本質上也是計算距離,只不過它考慮到不同維度的距離權重不一樣,有點像社會主義的民主投票,可以通過max margin 優化得到權值,具體參考文獻[4],這也是一種經典的方法,可以好好看看,比如是構造正,負樣本對。對比圖 1,NN算法的分界面是正圓,而距離函數的分界面是橢圓,水平距離比垂直距離的權值要大。文獻[4]和文獻[5]和本文最爲接近。

對比上面的結果,明顯發現exemplar-SVM的效果要好,因爲它使用了大量負樣本訓練,所以能很好的將負樣本區分出來。

Result

(1)Detection

圖中綠色的表示檢測到的目標位置,黃色表示,將對應的exemplar 直接放在綠色的位置。

上圖是檢測錯誤的例子。

VOC 2007 的檢測結果

與DPM Version 3(LDPM)對比,平均精確度有所降低,不過DPM模型確實要複雜得多,每個模板都有6個Parts,而且還考慮形變Cost,於是作者大呼unfair,但是DPM只用了2個模板,而作者的模板數目約爲300!!與HOG(DT)對比,0.227 >> 0.097 不過我覺得這更不公平,HOG只用了單一整體模板,而這裏卻多達300!!!

下面是使用exemplar SVM所能提供的其它信息,看得眼花繚亂……

(2)Related Object Priming

馬上有什麼?馬上有人嗎?作者推斷自行車/摩托車/馬上有沒有人很簡單,如果樣本馬上面有人重合面積大於0.1,那麼這個樣本就可以來自動填充人,即如果在圖像中檢測到該馬樣本,則就說馬上有人,人的位置直接就用直接使用樣本中人的bounding box。其實這只是我的推測,作者這部分並不詳細,Majority Voting 也沒弄明白,竟然連參考文獻都沒有,估計是Hough 變換之類的……

(3)Segmentation

在PASCAL VOC 2007數據集上取得了 90.6% pixelwise accuracy ,有點恐怖哈

(4)geometry estimation

Exemplar SVM: 62:3% pixelwise labeling accuracy

《Geometric context from a single image》: 43:0%

DPM +nearest neighbor : 51:0%

(4)3D Model Transfer

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章