Scalable Person Re-identification: A Benchmark(可擴張的行人重識別:基準)-1

感謝Google翻譯大力支持。

摘要:

本文爲行人重識別提供一個新的高質量數據集,命名爲命名爲“Market-1501”。一般地,當前的數據集:1)在規模有限; 2)由手繪bboxes,這種設置在實際使用中是不可用的; 3)每個身份(封閉環境)只有一個基本圖像和一個查詢圖像。

爲了解決這些問題,提出的market-1501數據集在三個方面特點。首先,它包含超過32,000帶註釋的bboxes,以及超過500K圖像的分散器集,它是迄今爲止最大的人REID數據集。其次,使用可變形零件模型(DPM)作爲行人檢測器來生成Market-1501數據集中的圖像。 第三,我們的數據集是在一個開放系統中收集的,每個身份在每個攝像機下都有多個圖像。

作爲文章的次要貢獻,受大規模圖像搜索的最新研究啓發,本文提出了一種無監督詞袋描述因子(符)。 我們將人的重新識別視爲圖像搜索的一項特殊任務。 在實驗中,我們證明了所提出的描述符在VIPeR,CUHK03和Market-1501數據集上具有競爭準確性,並且在大規模500k數據集上具有可擴展性。

1.簡介

本文考慮了人物重新識別的任務。給定一個探測圖像(查詢),我們的任務是在圖庫(數據庫)中搜索包含同一人物的圖像。

我們的工作有兩個方面。 首先,大多數現有的人員重新識別數據集在數據集規模或數據豐富性方面都有缺陷,特別是,身份數量通常限制在數百個以內。 這使得在大規模數據下測試算法的魯棒性變得不可行。

此外,相同身份的圖像通常由兩臺攝像機捕獲;每個身份在每個攝像機下都有一個圖像,因此查詢和相關圖像的數量非常有限。 此外,在大多數數據集中,行被手工標註的,手繪的bbox(bbox)很好地對齊。 但實際上,當使用行人檢測器時,被檢測人員可能會出現未對準或部分丟失的情況(圖1)。 另一方面,行人檢測器在真正例(True positive)的 (bboxes)會產生由複雜背景引起的錯誤警報或閉塞(圖1)。 這些干擾因素可能會對識別準確性產生不可忽視的影響。 因此,一旦理想數據集符合實際,當前方法可能會偏向理想場景(ideal settings),並且其有效性可能會受損。 爲了解決這個問題,重要的是要引入更接近實際場景(realistic settings)的數據集。

第二,事實證明,基於局部特徵的方法可以有效地進行行人重識別。 關於“查詢--搜索”模式,這可能與基於詞袋(Bag-of-Words,BoW)的圖像搜索模型相兼容。 但是,某些最新(state of the art)的行人重新識別方法依賴於蠻力特徵匹配(brute-force)。 儘管獲得了良好的識別率,但是這一系列方法的計算效率較低,這限制了其在大規模應用中的潛力。 在BoW模型中,使用預先訓練的碼本(code book,有個背景建模方法叫CodeBook)將局部特徵量化爲視覺單詞(visual words,這個詞不知道如何翻譯)。 因此,圖像由通過TF-IDF方案加權的視覺單詞(Visual Words)直方圖表示。 在BoW模型中,不是在圖像之間執行全面的視覺匹配,而是將局部特徵聚合到全局矢量中。

考慮到以上兩個問題,本文做出了兩個貢獻。 主要貢獻是創建一個新的行人重新識別數據集,名爲“market-1501"(圖1,見原論文)。 它包含由6個攝像機,收集的1,501行人。 我們進一步添加一個互不相干的有500K的干擾項集圖像。 據我們所知,Market-1501是一個的最大人數的re-id數據集,具有32,668 + 500K bbox和3,368個查詢圖像。 它與現有的數據集有三個方面區別:用DPM做檢測bbox,包含干擾項圖像以及每個身份具有多個查詢,多正確標記(ground-truth)。 因此,該數據集提供了更現實的基準。 爲了進行準確性評估,我們建議使用平均精度(mAP),它比與常用的“累積匹配特徵”(CMC)曲線相比,測量更加全面。

作爲次要貢獻,受最新圖像搜索系統的啓發,提出了無監督的BoW表述(representation)。在生成關於訓練數據的碼本(codebook)後,每個行人圖像都表示爲視覺單詞(visual word)直方圖。在此步驟中,集成了許多技術,例如根描述符(root descriptor),反例證據(negative evidences),突發性加權(burstiness weighting),avgIDF等。此外,還採用了一些進一步的改進,即弱幾何約束,高斯蒙版,多次查詢和重新排序。通過簡單的點積作爲相似性度量,我們表明提出的BoW表示法可產生具有競爭力的識別精度,同時具有快速的響應時間。

2.已有的研究(Related work)

近年來,對於行人重新識別,無論監督模型還是非監督模型都進行了廣泛的研究。在判別模型(discriminative models)(和生成模型(Generative model)一起是分別是監督學習的兩大研究方向)中,經典的SVM(或RankSVM)和boosting是常見的判別方法(popular choice)。列如,趙等人使用RankSVM學的濾波響應的權重和補充匹配分數(learn the weights of filter responses and patch matching scores using RankSVM)。Gray等人利用bootsing在本地descriptors集合中進行特徵選擇。最近,李等人提出一個深度學習網絡以共同優化所有管道(pipeline)步驟。This line of work(可能指pipeline)雖然有利於減少多視圖變化的影響,但需要費力註釋,尤其是在系統中添加了新攝像機時。另一方面,在無監督模型中,Farenzena等人利用行人的對稱性和不對稱性提出對稱驅動的局部特徵累積(the Symmetry Driven Accumulation of Local Features ,SDALF)算法。 Ma等人使用Fisher向量(Fisher Vector)將局部特徵編碼爲全局向量。利用行人圖像中的顯着性信息,Zhao等人提出將較高的權重分配給稀有顏色,這一想法非常類似於圖像搜索中的“文檔反轉頻率”(the Inverse Document Frequency,IDF)。本文提出了一種適用於不同相機網絡的無監督方法。

另外,自從引入SIFT 描述因子(descriptors )和BoW模型以來,圖像搜索領域得到了極大的發展。在過去的十年中,已經開發了無數種方法來提高搜索性能。例如,爲了提高匹配的準確性,Jégou等人在二值化的SIFT( binary SIFT)特徵中加入倒排文件( inverted file)。同時,還可以通過互補描述符之間的索引級特徵融合來產生精細的視覺匹配。由於BoW模型沒有考慮局部特徵的空間分佈(這也是人員重新識別的問題),另一個研究方向是對空間約束進行建模。空間編碼是通過偏移圖檢查圖像之間的幾何一致性,而張等人發現( discover)視覺短語(visual phrases)來編碼空間信息。對於排名問題(ranking problems),有效的重新排名步驟通常會帶來改進。劉等人設計一個“單發(one shot)”反饋優化方案,該方案可使用戶快速優化搜索結果。鄭等人建議利用分數列表的配置文件爲各種特徵自適應分配權重( propose to leverage the profile of the score lists to adaptively assign weights to various features)。在文章【 X. Shen, Z. Lin, J. Brandt, S. Avidan, and Y. Wu. Object retrieval and localization with spatially-constrained similarity measure and k-nn re-ranking. In CVPR, 2012. 2, 5】中,排名靠前的圖片再次用作查詢,最終分數是各個分數的加權總和。 當存在多個查詢時,可以通過平均或最大操作(max operations)形成一個新查詢。 本文將幾種最先進的技術集成到圖像搜索中,從而形成了具有競爭力的行人重識別系統。

3.The Market-1501數據集

3.1數據集簡介

本文介紹了一個新的行人重識別數據集“ Market-1501”數據集。 在數據集收集過程中,校園超市前面總共放置了六個攝像機,其中包括五個1280×1080高清攝像機和一個720×576 SD攝像機。 這些相機之間存在重疊。

該數據集包含包含1,501個身份(identities)的32,668個bbox。 由於開放的環境,每個身份的圖像最多可以由六個攝像機捕獲。 我們確保每個帶註釋的身份至少由兩個攝像機捕獲,以便可以執行跨攝像機搜索。 總體而言,我們的數據集具有以下特色屬性。

首先,雖然大多數現有數據集都使用手工裁剪的bbox,但Market-1501數據集採用了最先進的檢測器,即可變形零件模型(DPM)[9]。 基於“完美”的手繪bbox,當前的方法並未完全考慮行人圖像的未對準,這是基於DPM的bbox中始終存在的問題。 如圖1所示,在檢測到的圖像中,未對準和部分缺失是常見的。

其次,除了假陽性(false positive)bbox,我們還提供誤報。我們注意到,CUHK03數據集[20]也使用了DPM檢測器,但是就檢測器而言,CUHK03中的bbox相對較好。實際上,檢測到的大量bbox會非常“糟糕”。考慮到這一點,對於每個檢測到的bbox都提供一個手繪正確信息的註釋bbox(類似於論文[20]:注,指的CUHK03數據集論文),與[20]不同,對於檢測到的bbox和手繪bbox,計算重疊區域與聯合區域的比率。在我們的數據集中,如果面積比大於50%,則DPM bbox標記爲“好”(在目標檢測中常用[9]: P. F. Felzenszwalb, R. B. Girshick, D. McAllester, and D. Ramanan.Object detection with discriminatively trained part-based models. TPAMI, 32(9):1627–1645, 2010. );如果該比率小於20%,則DPM bbox標記爲“干擾因素”;否則,bbox被標記爲“垃圾” [27]( J. Philbin, O. Chum, M. Isard, J. Sivic, and A. Zisserman. Object retrieval with large vocabularies and fast spatial matching. In CVPR,pages 1–8, 2007),這意味着該圖像對re-id準確性的影響爲零。此外,一些明顯的虛假警報bbox也被標記爲“干擾因素”。在圖1中,最上面兩行顯示了“好”圖像的示例,而最下面一行則顯示了“干擾者”圖像和“垃圾”圖像。這些誤報圖像的姿勢,分辨率等發生很大的變化。

第三,每個身份可能在每個攝像機下具有多個圖像。 因此,在跨攝像機搜索期間,每個身份可能有多個查詢和多個標記爲正確的數據(Ground truths)。 這與實際用法是一致的,特別是在可以充分利用多個查詢來獲取有關感興趣人員的更具區別性的信息的情況下。 在性能評估方面,對於re-id系統,一種完美的方法應該能夠找到查詢標識的所有實例。從這個意義上講,我們的數據集爲在開放系統中應用的方法提供了測試平臺。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章