0. 國際慣例,名詞解釋。
行人Reid,行人重識別。即在同一或不同攝像頭下通過對行人檢測框的圖像進行feature提取、match等來判斷兩張圖或多張是不是同一個人。既然是判斷哪個是真孫悟空,那就得有真孫悟空的照片吧,就是groundtruth,在reid中叫query image。那些待驗真身的圖片叫做gallery image。通俗的來完了,還是得要官方的解釋下:
gallery set
–—參考圖像集,即公認的標準行人庫,測試用;
query set —
– 待查詢圖像集,測試用
很拗口,推薦不看。
1.數據集
煉丹嘛,沒數據怎麼搞。
Market-1501、CUHK03、DukeMTMC-reID,MSMT17
是SOTA衡量Re-ID技術的比較主流的數據集。大致介紹下幾大數據集:
1.1 Market-1501
基本可以說是最早,也是大家paper用的最多的數據集了。
官方是這麼說的:
- 該數據集在清華大學校園中採集,圖像來自6個不同的攝像頭,包含5個高分辨率(1280x1080 HD,fps: 25)和1個低分辨率(720x576 SD,fps: 25);
- 該數據集有1501個類別,共36036張圖片,其中訓練集有751個ID:共12936張,測試集有750個ID:共19732張。所以在訓練集中,每個ID平均有17.2張訓練圖片,在測試集中,每個ID平均包含26.3張圖片;
- 每個類別的圖片最多能被六個攝像頭捕捉,最少能被兩個攝像頭捕捉;
- 在開放環境中,多攝像頭組成的捕捉系統使樣本包含多種屬性、信息和環境背景;
- Market-1501數據集的圖像是由檢測器自動檢測並切割,包含一些檢測誤差,較爲接近真實使用情況。
- ref:http://www.liangzheng.org/Project/project_reid.html
--market1501文件結構
- "bounding_box_train" – 751個ID,12936張圖片,訓練集;
- "bounding_box_test" – 750個ID,19732張圖片,測試集,也是所謂的gallery參考圖像集;
- "query" – 750個ID,共3368張圖片,即待查詢圖片。test中750個ID在每個攝像頭中隨機選擇一張圖像作爲query,因此一個ID的query最多有 6 個,ps:與test中的圖不重複,在參考建立自己的數據集時,可以先建好test,然後按需要從test中剪切得到query;
- "gt_query" – bla bla...個人感覺沒什麼用
- "gt_bbox" – bla bla...個人感覺沒什麼用
--命名規則
0001_c1s1_001051_00.jpg,其中:
0001
表示ID的編號,C1表示第一個camera1,s1表示第一個視頻片段,001051:幀號 ,00表示手工標註的bbox,如果是01則是DPM檢測器得到的bbox。
其他不多說,知道太細反而不好,對了,再多說一句,market的train和test有幾張髒數據,或者錯誤標註。大家實際項目用的話需要清洗下,如果是寫paper就無所謂了,不過清一下或者可以給你的paper漲點哈。自己清過一次,有需要的話大傢俬我,我發一份,涉及版權問題,就不放鏈接了 = =*。
1.2 DukeMTMC-reID——https://github.com/layumi/DukeMTMC-reID_evaluation
感覺沒什麼新的東西,就是比我們清華大學的多了一些相機覆蓋,體量大了一些。
--目錄結構
基本跟market相似。
- “bounding_box_test” – 測試集,包含702人,共17,661張圖像(隨機採樣,702 ID + 408 distractor ID)
- “bounding_box_train” – 訓練集,包含702人,共16,522張圖像(隨機採樣)
- “query” – 爲測試集中的702人在每個攝像頭中隨機選擇一張圖像作爲query,共2,228張圖像
--命名規則
0001_c2_f0046182.jpg ,相比於market少了s號而已,大同小異。
1.3 CUHK03——https://drive.google.com/file/d/0B7TOZKXmIjU3OUhfd3BPaVRHZVE/view
港中文的數據集。大同小異
1.4 MSMT17
大同小異。
3. 評估指標
重點來了,一個做deep learning的博客,不寫點數學總覺得不太專業。我當時看這部分的時候,連翻了好幾個這個領域大佬的博客,看完還是有點ran。
先來說下幾個reid中比較常見的數據指標:mAP,rank1.
就通俗解釋下這兩個,詳細數學計算大家參考下類似的這種:https://blog.csdn.net/u013698770/article/details/60776102
先說rank1. 就是我從一大堆孫悟空照片裏,第一張就match到真悟空的概率。同理rank2,就是第二張拿對的概率。
那麼mAP就是第幾次x對應概率加權求平均的一個精度值。用來表示mean average precision。
這個圖我覺得做的很好,share給大家:
4. 結語
最後關於reid多說兩句,現階段reid工業界面剛開始落地,還有很多的實際問題需要解決,比如遮擋問題,跨域問題,衣服特徵對結果精度的影響過大的問題,希望後續入坑這個課題的同學多做一些針對實際場景的work,reid還有很長的路要走。共勉。