ICCV2015論文翻譯 Scalable Person Re-identification: A Benchmark

網頁的排版效果不好,可以從以下鏈接下載pdf版本:

https://download.csdn.net/download/hyk_1996/10602389

 

Scalable Person Re-identification: A Benchmark

可拓展的行人重識別:一個基準

 

摘要

這篇論文貢獻了一個新的用於行人重識別領域的高質量數據集,稱爲“Market-1501”.一般來說,目前的數據集有如下缺點:1)規模有限;2)由人工繪製的包圍框組成,在現實條件下不可用;3)對於每個identity(封閉環境下),只有一個ground truth和一個query圖像。爲了處理這些問題,新提出的Market-1501數據集具有這三個方面的特徵。首先,它包含了超過32000個標註的包圍框,加上一個超過500K張圖像的干擾集,使它成爲目前爲止最大的行人重識別數據集。其次,Market-1501數據集中的圖像採用可變形部件模型(DPM)作爲行人檢測子的方法生成。最後,我們的數據集在一個開放系統中收集得到,因此每個identity在每個攝像頭下有多張圖像。

作爲次要貢獻,本文提出了一個無監督的Bag-of-Words描述子,它受到了最近大規模圖像搜索領域的進展的啓發。我們將行人重識別看作是圖像搜索中的一個特殊任務。在實驗中,我們展示了提出的描述子能夠在VIPeR,CUHK-03和Market-1501數據集上取得有競爭力的準確率,並且在大規模的500k數據集上有拓展性。

 

1. 緒論

        本文考慮了行人重識別任務。給定一張測試圖像(query),我們的任務是去在一個gallery(數據庫)搜索含有同一個人的圖像。

        我們的工作有兩方面的動機。首先,大多數存在的行人重識別數據集[10,44,4,13,22,19]在數據集規模或數據豐富性方面存在缺陷。具體而言,identity的數量通常限制在幾百個。這使得在大規模數據下測試算法的魯棒性變得不可行。而且,同一個人的圖像通常由兩個攝像頭獲取;每個identity在每個攝像頭下都有一張圖像,所以query和相關圖像的數目非常有限。此外,在大多數數據集中,行人通過手繪包圍框能得到很好地配準。但在現實中,當使用行人檢測子時,檢測到的行人可能會經歷錯位或部分缺失(圖1)。另一方面,行人檢測子,在產生正確的正例包圍框時,也會產生由複雜背景或遮擋(圖1)引起的錯誤警報。這些干擾可能會對識別準確率造成不可忽視的影響。因此,目前的方法可能偏向於理想的設置,並且一旦理想數據集遇到實際情況,其效果可能會受到損害。爲了解決這個問題,引入更接近實際設置的數據集非常重要。

        其次,基於局部特徵的方法[11,40,38,3]被證明是有效的行人重識別。考慮到“查詢-搜索”模式,這可能與基於Bag-of-Words(BoW)模型的圖像搜索兼容。儘管如此,一些最先進的行人重識別方法依賴於蠻力特徵匹配[39,38]。儘管獲得了良好的識別率,但這種方法的計算效率較低,這限制了其在大規模應用中的潛力。在BoW模型中,使用預訓練碼本將局部特徵量化爲視覺詞彙。因此圖像由TF-IDF方案加權的視覺詞彙直方圖表示。在BoW模型中,局部特徵被聚合成一個全局矢量,而不是在圖像之間進行詳盡的視覺匹配[39]。

        考慮到上述兩個問題,本文作出了兩點貢獻。主要貢獻是收集一個新的行人重識別數據集,名爲“Market-1501”(圖1)。它包含由6臺攝像機收集的1,501個identities. 我們進一步添加了一個由500K張無關圖像組成的干擾集。據我們所知,Market-1501是由32,668 + 500K個包圍框和3,368個query圖像組成的最大行人重識別數據集。它在三個方面與現有數據集有所區別:用DPM檢測包圍框,包含干擾圖像,以及每個identity的multi-query、multi-ground truth. 這個數據集因此提供了更真實的基準。爲了進行精度評估,我們建議使用均值平均精度(mAP),這是一種比常用的累積匹配特性(CMC)曲線更全面的測量方法[38,39,20]。

圖1. Market-1501數據集的示例圖像。所有圖像標準化到128x64.  (上:) 具有獨特外觀的三個行人的示例圖像。(中:)我們展示了三個外觀非常相似的行人的情況。(下:) 提供了一些干擾圖像樣本(左側)以及無用圖像(右側).

 

        作爲一項次要貢獻,受到最先進的圖像搜索系統的啓發,我們還提出了一種無監督的BoW表示法。 在生成訓練數據的碼本之後,將每個行人圖像表示爲視覺詞彙直方圖。在這一步中,整合了許多技術,例如根描述子[2],負證據[14],突發加權[16],avgIDF [41]等。此外,還採用了幾個進一步的改進,如幾何弱約束,高斯模板,多查詢和重排序。通過簡單的點積作爲相似性度量,我們證明了所提出的BoW表示在獲得快速響應時間的同時可以產生有競爭力的識別精度。

 

2. 相關工作

        對於行人重識別,這些年來,有監督和無監督模型已被廣泛研究。在判別模型[28,12,7,20,3]中,經典SVM(或RankSVM [28,40])和boosting [11, 30] 是流行的選擇。例如,Zhao等人 [40] 使用RankSVM學習濾波器響應的權重和塊匹配得分,而Gray等人[11] 通過boosting方法在局部描述符的集合中執行特徵選擇。最近,li等人 [20] 提出了一個深度學習網絡來共同優化所有pipeline步驟。這一系列研究有助於減少多視角變化的影響,但需要費力的標註,特別是當系統中添加新攝像機時。另一方面,在無監督模型中,Farenzena等人 [8] 利用行人的對稱性和不對稱性,提出局部特徵的對稱驅動累積(SDALF). Ma等人 [25] 使用Fisher向量將局部特徵編碼爲全局向量。爲了利用行人圖像中的顯著信息,Zhao等人[38] 建議將更高的權重分配給罕見的顏色,這與圖像搜索中的逆文檔頻率(IDF)[41]非常相似。本文提出了一種適用於不同攝像機網絡的非監督方法。

        另一方面,自從引入SIFT描述符[24]和BoW模型以來,圖像搜索領域已經有了很大的發展。在過去的十年中,已經開發了無數種方法[15,42,45]來提高搜索性能。例如,爲了提高匹配精度,Jégou等人 [15]在倒序文件中嵌入二進制SIFT特徵。同時,精細化視覺匹配也可以通過補充描述符之間的索引級特徵融合[42]產生。由於BoW模型沒有考慮局部特徵的空間分佈(也是行人重識別領域的一個問題),另一個方向是對空間約束進行建模[45,37]。空間編碼[45]通過偏移圖來檢查圖像之間的幾何一致性,而Zhang等人 [37] 發現用於編碼空間信息的視覺短語。對於排序問題,有效的重排序步驟通常會帶來一些改進。Liu等人[23] 設計了一個“one shot”的反饋優化方案,允許用戶快速優化搜索結果。Zheng等人  [43] 建議利用分數列表的配置文件自適應地將權重分配給各種特徵。在[29]中,排名最高的圖像再次用作查詢,最終得分是單個得分的加權和。當存在多個查詢時[1],可以通過平均或最大操作來形成新的查詢。本文集成了幾種最先進的圖像搜索技術,產生了一個有競爭力的行人重識別系統。

 

3. Market-1501數據集

3.1. 描述

        在本文中,引入了一個新的行人重識別數據集,“Market-1501”數據集。 在收集數據集時,共有6臺攝像機放在校園超市前面,其中包括5臺1280×1080高清攝像機和一臺720×576 SD攝像機。這些攝像頭之間存在重疊。該數據集包含1306個行人的32,668個包圍框。由於開放的環境,每個行人的圖像最多由六臺攝像機拍攝。我們確保每個標註的行人都至少由兩臺攝像頭拍攝,以便進行跨攝像頭搜索。總體而言,我們的數據集具有以下特徵屬性。

                                            表1. Market-1501和現有的數據集[20,10,44,22,19,4]比較

 

        首先,儘管大多數現有數據集都使用手工裁剪的包圍框,但Market-1501數據集採用了最先進的檢測器,即可變形部件模型(DPM)[9]。 基於“完美的”手繪包圍框,目前的方法並沒有充分考慮行人圖像的不對齊,這是基於DPM的包圍框中一直存在的問題。 如圖1所示,在檢測到的圖像中,未對齊和部分缺失是常見的。

        其次,除了錯誤正例包圍框外,我們還提供了錯誤警報。我們注意到CUHK03數據集[20] 也使用DPM檢測器,但CUHK03中的包圍框在檢測器方面相對較好。事實上,大量的檢測到的包圍框會非常“不好”。考慮到這一點,對每個檢測到的包圍框進行註釋,提供了一個手繪的ground truth包圍框(類似於[20])。與[20]不同,對於檢測到的和手繪的框,計算重疊區域與聯合區域的比率。在我們的數據集中,如果面積比大於50%,DPM包圍框被標記爲“良好”(物體檢測中的例程[9]); 如果比例小於20%,DPM 包圍框被標記爲“干擾”; 否則,包圍框被標記爲“無用”[27],這意味着此圖像對重識別準確性沒有影響。而且,一些明顯的誤警報包圍框也被標記爲“干擾”。在圖1中,“好”圖像的示例顯示在最上面的兩行中,而“干擾”和“無用”圖像位於最下面的行中。這些圖像在姿態,分辨率等方面經歷了廣泛的變化。

        第三,每個行人在每個攝像機下可能有多個圖像。因此,在跨攝像頭搜索過程中,每個行人可能有多個查詢圖像和多個ground truth。這與實際使用一致,特別是在可以充分利用多個查詢圖像來獲得關於感興趣的行人的更多區分性信息的情況下。在性能評估方面,對於一個重識別系統,一個完美的方法應該能夠找出待查詢行人的所有實例。從這個意義上說,我們的數據集爲在開放系統中應用的方法提供了測試平臺。

                                                             圖2. 干擾數據集的示例圖片

 

3.2. 干擾數據集

        我們強調規模是行人重識別研究中的重要問題。因此,我們進一步增加了Market-1501數據集,增加了一個額外的干擾集。該數據集包含超過500,000個包圍框,包含背景虛假警報以及不屬於1,501個標註行人的行人。樣本圖像如圖2所示。在實驗中,除了Market-1501數據集外,我們還將報告拓展的Market-1501 + 500K數據集的結果。

        表1顯示了與現有數據集的統計比較。我們的數據集包含1,501個行人,少於CUHK02 [19]。 關於這一點,我們計劃發佈2.0版以包含更多行人。原始數據集包含32,668個完全註釋的包圍框,使其成爲迄今爲止最大的行人重識別數據集。由於包含行人的圖像用手繪包圍框和ID標註,因此此數據集也可用於行人檢測。而且,我們的數據集被500K的干擾圖像大大放大,可以可靠地進行效率/可擴展性分析。與其他基準數據集相比,Market-1501還具有6個攝像頭。我們的數據集代替了僅有2臺攝像頭的封閉系統,可作爲度量學習方法的理想基準,從而可以評估它們的泛化能力以用於實際用途。

3.3. 評估協議

        當前數據集通常使用累積匹配特徵(CMC)曲線來評估行人重識別算法的性能。CMC曲線顯示了待查詢行人出現在不同大小的候選列表中的概率。只有在給定查詢只有一個真實匹配的情況下(見圖3(a) ),該評估測量纔有效。在這種情況下,精確度和召回率是同樣的問題。但是,如果存在多個真實匹配,則  CMC曲線存在偏差,因爲未考慮“召回率”。例如,圖3(b) 和圖3(c) 的CMC曲線都等於1,這不能提供兩個排序列表之間的質量的公平比較。

圖3. AP和CMC度量之間差異的一個簡單例子。真實匹配和錯誤匹配分別爲綠色和紅色。對於所有三個排序列表,CMC曲線都等於1.但AP分別等於1, 1, 和0.71.

 

        對於Market-1501數據集,每個查詢平均有14.8個跨攝像頭的真實匹配。因此,我們使用均值平均精度(mAP)來評估整體表現。對於每個查詢,我們計算Precision-Recall曲線下的面積,即平均精度(AP)。然後,計算所有查詢的AP的平均值,即mAP,它考慮算法的精準度和召回率,從而提供更全面的評估。當使用平均精度(AP)時,圖3(b) 和圖3(c) 中的排序列表被有效地區分。

        我們的數據集被隨機分爲訓練集和測試集,分別包含750和751個行人。在測試過程中,對於每個行人,我們在每臺攝像機中選擇一個查詢圖像。請注意,所選的查詢是手繪的,而不是像在gallery中那樣用DPM檢測。原因在於,實際上,交互式繪製一個包圍框非常方便,它可以產生更高的識別準確度[20]。搜索過程以跨攝像機模式執行,即,與查詢一樣來自同一攝像機捕獲的相關圖像被視爲“無效”。在這種情況下,一個行人最多有6個查詢,總共有3368個查詢圖像。兩個行人樣本的查詢如圖4所示。


 圖4. 查詢圖像示例。在Market-1501數據集,查詢圖像是人手繪製的包圍框。每個行人有最多6張查詢圖像,一個攝像頭一張。

 

4. 我們的方法

4.1. Bag-of-Words模型

        出於三個原因,我們採用詞袋(BoW)模型。首先,它很好地適應了局部特徵,這些特徵在之前的研究中被認爲是有效的[25,38]。其次,它可以實現快速的全局特徵匹配,而不是費時費力的特徵-特徵匹配[40,39,3]。第三,通過將相似的局部描述符量化爲相同的視覺單詞,BoW模型實現了對照明、視角等的一些不變性。我們描述各個步驟如下。

圖5. 局部特徵提取。我們爲每個4x4圖像塊計算平均CN向量。每個水平條的局部特徵被量化和池化爲一個直方圖。

 

        特徵提取。我們採用我們使用顏色命名(CN)描述符[32]。給定標準化爲128×64像素的行人圖像,4×4大小的圖像塊被密集採樣。採樣步長是4,因此塊之間不會有重疊。對於每個塊,計算所有像素的CN描述子,並且隨後被L1規範化,接着是√(·)運算符[2]。用平均向量作爲這個塊的描述符(見圖5)。

        碼本。對於Market-1501,我們在訓練集上生成了碼本。對於其它數據集,碼本用獨立的TUD-Brussels數據集[35] 訓練。使用了標準k-means算法,因此碼本的大小爲k.

        量化。給定一個局部描述子,我們使用多重分配(MA)[15]在碼本中找到歐氏距離下的近鄰。 我們設置MA = 10,所以一個特徵由10個視覺詞的索引表示。

        TF-IDF。視覺詞直方圖通過TF-IDF方案進行加權。TF編碼視覺詞的出現次數,並且IDF被計算爲           ,,其中N是gallery中的圖像的數量,是包含視覺詞i的圖像的數量。在本文中,我們使用avgIDF [41]變體代替標準的IDF。

        突發性。突發性是指查詢特徵在測試圖像中發現多個匹配的現象[16]。對於CN描述符,由於與SIFT相比具有較低的判別能力,所以突發性可能更爲普遍。因此,直方圖中的所有項除以√tf。

        負證據。根據[14],我們計算訓練集中的平均特徵向量。然後,從所有測試特徵中減去均值向量。 因此,特徵向量中的零元素也被考慮到點積中。

        相似度函數。給定一個查詢圖像Q和一個gallery圖像G,我們計算它們特徵向量間的點乘。注意,在用L2範數標準化後,點積等於歐幾里德距離。在大規模的實驗中,近似最近鄰算法[33] 採用歐幾里得距離。

4.2. 改進

        弱幾何約束。在行人重識別中,編碼幾何約束的流行方法包括“鄰接約束搜索”(ACS)[38,39]。 這種方法在結合空間約束方面是有效的,但是其計算成本很高。受到空間金字塔匹配[18]的啓發,我們將ACS整合到BoW模型中。如圖5所示,輸入圖像被劃分成M個水平條紋。然後,對於條紋m,視覺詞直方圖被表示爲,其中k是碼本尺寸。因此,輸入圖像的特徵矢量被表示爲,即來自所有條紋的矢量的級聯。當匹配兩個圖像時,點積將所有相應條紋的相似性相加。因此,我們避免了每個查詢特徵的圖像塊距離的昂貴計算。

        背景抑制。背景干擾的負面影響已被廣泛研究[8,38,39]。在一個解決方案中,Farenzena等人 [8]提出通過分割將前景行人與背景分開。

        由於爲每幅圖像生成掩膜的過程既費時又不穩定,本文提出了一種簡單的解決方案,在圖像上施加一個二維高斯模板。具體而言,高斯函數採用N(μx,σx,μy,σy)的形式,其中μx,μy是水平和垂直方向的高斯平均值,而σx,σy是水平和垂直方向的高斯標準差。我們將(μx,μy)設置爲圖像中心,並且對於所有實驗設置(σx,σy)=(1,1)。該方法假定人位於圖像的中心,並且被背景包圍。

        多個查詢。在圖像搜索[1]和重識別 [8]的研究中表明,多個查詢的使用可以產生出色的結果。由於考慮了類內方差,該算法對行人變化更加魯棒。

        當每個行人在單個攝像機中具有多個查詢圖像時,基於速度的考慮,我們將它們合併爲單個查詢,而不是多對多匹配策略[8]。在這裏,我們採用兩種池化策略,即平均池化和最大池化。在平均池化中,多個查詢的特徵向量按平均總和池化成一個; 在最大池化中,最終特徵向量從所有查詢中獲取每個維度中的最大值。

        重排序。當把行人重識別看作是排序問題時,很自然想到了使用重排列算法。在本文中,我們使用一種簡單的重排列方法,將最初排序列表中排名最高的T張圖像作爲查詢再次搜索gallery。具體地,給定查詢Q的初始排序列表,將作爲列表中第i個圖像R i用作查詢。當使用R i作爲查詢時,gallery圖像G的相似度得分被表示爲S(R i,G)。我們爲每個top-i排序的查詢分配一個權重1 /(i + 1),i = 1,...,T,其中T是擴展查詢的數量。然後,查詢Q的gallery圖像G的最終分數被確定爲,

其中是原始查詢和擴展查詢獲得的相似度得分的加權和,並且隨着擴展查詢的位置越靠近頂端,權重變小。該方法與[29]中的方程不同。公式 1使用了相似性值,而[29]使用了相反的排序。

 

5. 實驗

5.1. 數據集

        VIPeR數據集[10] 由632個行人組成,每個行人有兩張從兩個不同的攝像頭捕獲的圖像。所有圖像被歸一化爲128×48像素。VIPeR被隨機分成兩半,一半用於訓練,另一半用於測試。每一半包含316個行人。對於每個行人,我們從一個攝像頭拍攝的圖像作爲查詢,並執行跨攝像頭搜索。

        CHUK-03數據集[20] 包含1467個行人的13,164個DPM 包圍框。每個行人由兩臺攝像機觀察,每個視角平均有4.8張圖像。按照[20]中的協議,對於測試集,我們隨機選擇100個人。對於每個人,所有的圖像都被輪流用作查詢,並進行跨攝像機搜索。測試過程重複20次。我們報告了VIPeR和CUHK03數據集的CMC得分和mAP。

5.2. 重要的參數

        碼本大小k. 在我們的實驗中,構造了不同大小的碼本,在Market-1501數據集上的mAP得分如表2所示。當k=350時可以得到最高得分。

        條紋的數目M. 表3展示了不同條紋數目下的性能。隨着條紋數量的增加,對行人圖像的更精細劃分導致更具辨別性的表示。因此識別準確度增加,對於太大的M值,召回率可能會下降。作爲一個速度和準確率的權衡,在實驗中我們選擇將圖像分割成16個條紋。

        擴展查詢的數量T. 表4總結了不同數量的擴展查詢獲得的結果。我們發現當T = 1時達到最佳性能。當T增加時,mAP緩慢下降,這證實了對於T的魯棒性。重排序的性能高度依賴於初始列表的質量,而較大的T會引入更多的噪音。在下面,我們將T設置爲1.

 

表2. 碼本大小對Market-1501的影響。我們的結果由“BoW + Geo + Gauss”得到。

 

表3. 水平條數目對Market-1501的影響。我們的結果由“BoW + Geo + Gauss”得到。

 

表4. 拓展查詢圖像數目對Market-1501的影響。T=0對應於“BoW + Geo + Gauss + MultiQ_max”

 

表5. 通過結合不同的方法( 即,BoW模型(BoW),弱幾何約束(Geo),背景抑制(Gauss) )在三個數據集上的結果( rank-1,rank-20的匹配率和均值平均精度(mAP),平均多查詢(MultiQ_avg) 和最大池化(MultiQ_max),以及重排序(Rerank)。請注意,這裏我們使用BoW的顏色名稱描述符。

 

圖6. 在VIPeR和CUHK03數據集下,不同方法結合的性能

 

5.3. 評估

        BoW模型和它的改進。我們在表5和圖6中給出了由BoW、幾何約束(Geo)、高斯掩模(Gauss)、多重查詢(MultiQ)和重排列(Rerank)獲得的結果。

        第一,基線BoW矢量產生了相對較低的準確性:rank-1準確率= 9.04%、10.56%和5.35%,分別對應Market-1501、VIPeR和CUHK03數據集。

        第二,當我們通過條紋匹配來整合幾何約束時,我們觀察到準確性的連續提高。例如,在Market-1501數據集中,mAP從3.26%上升到8.46%(+ 5.20%),rank-1準確度從9.04%到21.23%(+ 12.19%)可以看到更大的改進。

        第三,很顯然,高斯掩膜在所有三個數據集上運作良好。我們在Market-1501數據集的mAP中觀察到5.64%的提升。 因此,行人大致位於圖像中央的先驗在統計上是合理的。

        其次,我們在CUHK03和Market-1501數據集上測試多查詢,其中每個待查詢行人具有多個包圍框。結果表明使用多查詢進一步提高了識別的準確性。Market-1501數據集的改進更爲突出,查詢圖像的外觀更加多樣化(參見圖4)。此外,通過最大池化的多重查詢略優於平均池化,可能是因爲最大池化提供了更多權重給罕見但突出的功能,並提高了召回率。

        最後,我們從表4和表5看出,重排列會產生更高的mAP。然而,重排序的一個常見問題是對初始排序列表的質量的敏感性。在Market-1501和CUHK03數據集上,由於大多數查詢不具有top-1匹配,因此mAP的改進相對較小。

        攝像頭組之間的結果。爲了進一步理解Market-1501數據集,我們提供了所有攝像頭對之間的重識別結果,如圖7所示。我們使用“BoW+Geo+Gauss”表示。很容易知道,在同一個攝像頭中的重識別會產生最高的準確性。另一方面,正如預期的那樣,不同攝像頭對之間的表現差異很大。對於攝像頭對1-4和3-5,BoW描述符產生相對較好的性能,這主要是因爲兩個攝像頭對共享更多重疊。此外,攝像頭6是一個720×576 SD攝像頭,並捕捉與其他高清攝像頭不同的背景,因此攝像頭6和其他攝像頭之間的重識別準確度非常低。在攝像頭對5-1和5-2之間可以觀察到類似的低結果。我們還計算了跨攝像頭的平均mAP和平均rank-1準確度:分別爲10.51%和13.72%. 我們根據查詢次數對不同攝像機對之間的mAP進行加權,並且不計算對角線上的結果。與表5中的“BoW + Geo + Gauss”線相比,這兩種測量結果都遠遠低於所有攝像頭作爲gallery時的池化圖像。這表明在我們的數據集中,攝像頭對間重識別非常具有挑戰性。

 

圖7. Market-1501上攝像頭對之間的重識別性能表現: (a) mAP和 (b) rank-1準確率。垂直和水平軸上的攝像頭分別是probe和gallery. 跨攝像頭平均mAP和平均rank-1準確度分別爲10.51%和13.72%.

 

圖8.  在VIPeR上和最先進方法的比較。我們結合了HS和CN特徵,和eSDC方法。

 

表6. 在CUHK03和Market-1501上的方法比較

 

表7. 在Market-1501數據集上不同步驟的平均查詢時間。爲了公平地比較,採用Matlab實現。

        和最先進方法的比較。我們將我們的結果和最先進方法相比較,如圖8和表6所示。在VIPeR(圖8)中,我們的方法優於兩種無監督方法,即eSDC [39],SDALF [8]。具體而言,當使用兩個特徵時,即顏色名稱(CN)和HS直方圖(HS),我們實現26.08%的rank-1識別率。當eSDC [39]進一步整合時,匹配率增加到32.15%.

        在CUHK03上,我們的沒有多查詢的方法顯著優於幾乎所有的方法。與建立深度學習架構的FPNN [20]相比,我們的精確度略低1.00%. 但是,當多查詢和HS特徵集成時,CUHK03數據集上的rank-1匹配率超過[20] + 4.44%。
在Market-1501上,我們與包括HistLBP [36]、gBiCov [26]和LOMO [21]在內的最新描述符進行比較。我們提出的BoW描述符明顯優於這些競爭的方法。然後,我們在BoW上應用各種度量學習方法[34,6,17](在PCA降至100維之後)。不使用成對訓練(在大型攝像機網絡下可能代價高昂[31]),我們將6臺攝像機中的所有正負對作爲訓練樣本。我們觀察到度量學習帶來了不錯的改進。

        Market-1501數據集中的一些樣本結果提供在圖9中。除了隨着方法演進而增加的mAP,另一個值得注意的發現是,DPM檢測到的複雜背景或身體部位等干擾圖像會嚴重影響重識別的準確性。以前的研究通常只關注“良好”的包圍框,而很少研究檢測器的錯誤。

        大規模數據的實驗。首先,在Market-1501上,我們在兩個方面比較了我們的方法與SDALF [8]和SDC [39],即特徵提取和搜索時間。我們使用作者的Matlab實現,爲了公平的比較,也在Matlab中運行我們的算法。在2.59 GHz CPU和256 GB內存的服務器上進行評估,效率結果如表7所示。對於我們的方法,我們通過HS(我們提取了一個20維的HS直方圖並生成另一個與CN融合的BoW矢量)和CN特徵報告總時間。與SDC相比,我們實現了兩個數量級以上的效率增益。對於SDALF,涉及三個特徵,即MSCR,wHSV和RHSP。特徵提取時間分別爲0.09s,0.03s,2.79s; 搜索時間分別爲2643.94s,0.66s和0.20s. 因此,我們的方法比SDALF快三個數量級。

 

圖9.Market-1501數據集上的樣本結果。四行對應於四種配置,即“BoW”,“BoW + Geo + Gauss”,“BoW + Geo + Gauss + MultiQ”和“BoW + Geo + Gauss + MultiQ + Rerank”. 原始查詢位於藍色的bbox中,添加的多個查詢以黃色顯示。與查詢具有相同身份的圖像位於綠色框中,否則爲紅色。

 

圖10. mAP (a) 和查詢時間 (b) 在Market-1501 + 500K數據集中。虛線由精確的NN搜索獲得,而實線代表ANN搜索。

 

        然後,我們在Market-1501 + 500K數據集上進行實驗。將500K數據集中的圖像視爲異常值。爲了提高效率,我們使用[33]中提出的近似最近鄰(ANN)算法。在索引構建過程中,我們構建4棵kd樹,並以knn圖的形式爲每個數據存儲50個近鄰。NN和ANN返回的近鄰數目都是1000(因此NN的mAP略低於表5中的報告)。

        大規模數據集的重識別性能表現如圖10所示。隨着數據庫變大,精度下降。在Market-1501 + 500K數據集上,使用ANN時,“BoW + MultiQ max”達到10.92%的mAP。與原始數據集的結果相比,觀察到相對下降69.7%. 因此,數據庫大小對性能有顯著的負面影響,這在文獻中很少討論。而且,雖然ANN略微降低了重識別的準確性,但它帶來的好處卻很明顯。使用ANN,500K數據集的查詢時間爲127.5ms,與NN情況相比,查詢速度提高了50倍。

 

6.結論

        本文首先介紹了一個大規模的重識別數據集Market-1501(+ 500k),它更接近實際設置。然後,提出了一個BoW描述子,試圖彌合行人重識別和圖像搜索間的差距。新的數據集將使多個方向的研究成爲可能,如深度學習、大規模度量學習、多重查詢技術、搜索重排序等等。將來,當前的測試數據將被視爲驗證集,並且新的測試ID將在即將到來的行人重識別挑戰中被標註並出現。

 

參考文獻

[1] R. Arandjelovic and A. Zisserman. Multiple queries for large scale specific object retrieval. In BMVC, 2012.

[2] R. Arandjelovic and A. Zisserman. Three things everyone should know to improve object retrieval. In CVPR, 2012.

[3] D. Chen, Z. Yuan, G. Hua, N. Zheng, and J. Wang. Similarity learning on an explicit polynomial kernel feature map for person re-identification. In CVPR, 2015.

[4] D. S. Cheng, M. Cristani, M. Stoppa, L. Bazzani, and V. Murino.Custom pictorial structures for re-identification. In BMVC, volume 2, page 6, 2011.

[5] A. Das, A. Chakraborty, and A. K. Roy-Chowdhury. Consistent re-identification in a camera network. In ECCV. 2014.

[6] J. V. Davis, B. Kulis, P. Jain, S. Sra, and I. S. Dhillon. Information-theoretic metric learning. In ICML, pages 209–216. ACM, 2007.

[7] M. Dikmen, E. Akbas, T. S. Huang, and N. Ahuja. Pedestrian recognition with a learned metric. In ACCV. 2011.

[8] M. Farenzena, L. Bazzani, A. Perina, V. Murino, and M. Cristani.Person re-identification by symmetry-driven accumulation of local features. In CVPR, pages 2360–2367. IEEE, 2010.

[9] P. F. Felzenszwalb, R. B. Girshick, D. McAllester, and D. Ramanan. Object detection with discriminatively trained part-based models. T-PAMI, 32(9):1627–1645, 2010.

[10] D. Gray, S. Brennan, and H. Tao. Evaluating appearance models for recognition, reacquisition, and tracking. In Proc. IEEE International Workshop on Performance Evaluation for Tracking and Surveillance,volume 3, 2007.

[11] D. Gray and H. Tao. Viewpoint invariant pedestrian recognition with an ensemble of localized features. In ECCV. 2008.

[12] M. Hirzer, C. Beleznai, P. M. Roth, and H. Bischof. Person re-identification by descriptive and discriminative classification. In Image Analysis, pages 91–102. Springer, 2011.

[13] M. Hirzer, P. M. Roth, M. Köstinger, and H. Bischof. Relaxed pairwise learned metric for person re-identification. In ECCV. 2012.

[14] H. Jégou and O. Chum. Negative evidences and co-occurences in image retrieval: The benefit of pca and whitening. In ECCV. 2012.

[15] H. Jegou, M. Douze, and C. Schmid. Hamming embedding and weak geometric consistency for large scale image search. In ECCV, pages 304–317. Springer, 2008.

[16] H. Jégou, M. Douze, and C. Schmid. On the burstiness of visual elements. In CVPR, pages 1169–1176, 2009.

[17] M. Kostinger, M. Hirzer, P. Wohlhart, P. M. Roth, and H. Bischof.Large scale metric learning from equivalence constraints. In CVPR, pages 2288–2295, 2012.

[18] S. Lazebnik, C. Schmid, and J. Ponce. Beyond bags of features: Spatial pyramid matching for recognizing natural scene categories. In CVPR, 2006.

[19] W. Li and X. Wang. Locally aligned feature transforms across views. In CVPR, pages 3594–3601, 2013.

[20] W. Li, R. Zhao, T. Xiao, and X. Wang. Deepreid: Deep filter pairing neural network for person re-identification. In CVPR, pages 152–159, 2014.

[21] S. Liao, Y. Hu, X. Zhu, and S. Z. Li. Person re-identification by local maximal occurrence representation and metric learning. In CVPR, 2015.

[22] S. Liao, Z. Mo, Y. Hu, and S. Z. Li. Open-set person re-identification. arXiv preprint arXiv:1408.0872, 2014.

[23] C. Liu, C. C. Loy, S. Gong, and G. Wang. Pop: Person re-identification post-rank optimisation. In ICCV, 2013.

[24] D. G. Lowe. Distinctive image features from scale-invariant keypoints. IJCV, 60(2):91–110, 2004.

[25] B. Ma, Y. Su, and F. Jurie. Local descriptors encoded by fisher vectors for person re-identification. In ECCV Workshops and Demonstrations, pages 413–422. Springer, 2012.

[26] B. Ma, Y. Su, and F. Jurie. Covariance descriptor based on bio-inspired features for person re-identification and face verification. Image and Vision Computing, 32(6):379–390, 2014.

[27] J. Philbin, O. Chum, M. Isard, J. Sivic, and A. Zisserman. Object retrieval with large vocabularies and fast spatial matching. In CVPR, pages 1–8, 2007.

[28] B. Prosser, W.-S. Zheng, S. Gong, T. Xiang, and Q. Mary. Person re-identification by support vector ranking. In BMVC, volume 1, page 5, 2010.

[29] X. Shen, Z. Lin, J. Brandt, S. Avidan, and Y. Wu. Object retrieval and localization with spatially-constrained similarity measure and knn re-ranking. In CVPR, 2012.

[30] Y. Shen, W. Lin, J. Yan, M. Xu, J. Wu, and J. Wang. Person re-identification with correspondence structure learning. In ICCV, 2015.

[31] C. Su, f. Yang, S. Zhang, Q. Tian, L. Davis, and W. Gao. Multi-task learning with low rank attribute embedding for person re-identification. In ICCV, 2015.

[32] J. Van De Weijer, C. Schmid, J. Verbeek, and D. Larlus. Learning color names for real-world applications. TIP, 18(7):1512–1523, 2009.

[33] J. Wang and S. Li. Query-driven iterated neighborhood graph search for large scale indexing. In ACM MM, 2012.

[34] K. Q. Weinberger, J. Blitzer, and L. K. Saul. Distance metric learning for large margin nearest neighbor classification. In NIPS, pages 1473–1480, 2005.

[35] C. Wojek, S. Walk, and B. Schiele. Multi-cue onboard pedestrian detection. In CVPR, pages 794–801. IEEE, 2009.

[36] F. Xiong, M. Gou, O. Camps, and M. Sznaier. Person re-identification using kernel-based metric learning methods. In ECCV. 2014.

[37] S. Zhang, Q. Tian, G. Hua, Q. Huang, and S. Li. Descriptive visual words and visual phrases for image applications. In ACM MM, 2009.

[38] R. Zhao, W. Ouyang, and X. Wang. Person re-identification by salience matching. In ICCV, 2013.

[39] R. Zhao, W. Ouyang, and X. Wang. Unsupervised salience learning for person re-identification. In CVPR, 2013.

[40] R. Zhao, W. Ouyang, and X. Wang. Learning mid-level filters for person re-identification. In CVPR, 2014.

[41] L. Zheng, S. Wang, Z. Liu, and Q. Tian. Lp-norm idf for large scale image search. In CVPR, 2013.

[42] L. Zheng, S. Wang, Z. Liu, and Q. Tian. Packing and padding: Coupled multi-index for accurate image retrieval. In CVPR, 2014.

[43] L. Zheng, S. Wang, L. Tian, F. He, Z. Liu, and Q. Tian. Query-adaptive late fusion for image search and person re-identification. In CVPR, 2015.

[44] W.-S. Zheng, S. Gong, and T. Xiang. Associating groups of people. In BMVC, volume 2, page 6, 2009.

[45] W. Zhou, Y. Lu, H. Li, Y. Song, and Q. Tian. Spatial coding for large scale partial-duplicate web image search. In ACM MM, 2010.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章