行人屬性識別綜述(持續學習中)

參考論文:https://arxiv.org/abs/1901.07474

1 簡介

行人屬性識別(Pedestrian Attribute Recognition,PAR),目的是從輸入圖像中挖掘行人的屬性信息,如圖1所示。
在這裏插入圖片描述行人屬性識別挖掘得到的是行人的高層語義信息,這些信息和低層特徵不同,對視角變換和成像條件的變化比較魯棒。計算機視覺領域的很多算法,如ReID和行人檢測,都會集成行人的屬性信息以提升算法的魯棒性。雖然,RAP領域已經有了很多的研究成果,但因爲視角、光線、分辨率等因素的影響,它仍然是一個很有挑戰性的領域。

早期的行人屬性識別領域主要用的是手工設計的低層特徵,如HOG、SIFT,再結合分類算法SVM和條件隨機場(CRF),這些算法在實際應用中的效果不理想。近年來,隨着深度學習的發展,也出現了很多的基於深度學習的RAP算法。作者寫作本文的目的就是對RAP領域進行一次全面的梳理,作者嘗試分析的問題主要有:

  1. 傳統RAP算法和基於深度學習的RAP算法有什麼異同?
  2. RAP算法可以如何幫助改善其他計算機視覺算法(ReID,行人檢測和追蹤)的效果?
  3. 如何基於深度網絡更好的進行RAP,及RAP的未來發展方向在哪裏?

2 RAP的概念和難點

行人屬性識別,一般都會預先設置一個屬性列表,RAP算法的目的就是從一張輸入圖像中找到圖像中的人具有預置屬性列表中的哪些屬性。

影響RAP效果的關鍵因素:

  1. 多視角:不同視角下看同一個人可能會有不同的感受;
  2. 遮擋:行人的某些部位被遮擋會影響屬性識別;
  3. 數據不均衡:不是說訓練集中的每一個人都具備屬性列表中的所有屬性,每個人具備的只是屬性列表中的部分屬性,因此造成了屬性的數據不均衡;
  4. 低分辨率:監控場景下、遠距離抓拍的行人圖像,分辨率往往很小;
  5. 光線變化:不同強度、不同角度的光線影響成像效果;
  6. 模糊:行人運動時的運動模糊影響屬性識別。

難點:RAP中不同類別的屬性所屬的粒度不同,如髮型、顏色、帽子、眼睛等信息只是局部圖像塊的低層屬性信息,而年齡、性別等信息卻是全局的高層語義信息。並且,在視角、光線等信息變化時,採樣到的圖像變化可能很大,但這些屬性信息卻不會改變。如何從一張輸入圖像中提取出不同尺度的特徵完成對應屬性的判別及提升屬性判別的魯棒性,是RAP的難點所在

3 benchmarks

3.1 數據集

PETA:來自於10個小的行人重識別數據集,19000張圖像,分辨率從17 * 39 到 169 * 365,來自於8705個人,61個二分類屬性和4個多分類屬性。該數據集的缺點是對同一個人的不同圖像標註完全相同的屬性,即便在某些區域不可見的情況下,依然保持屬性不變(如在鞋子被遮擋的情況下,仍然對該圖像標註了鞋子的信息),目前用到該數據集的時候,都是從中選取35個屬性:
在這裏插入圖片描述

PARSE27K:來自於8段城市場景下移動攝像機拍攝的視頻,27000張圖像,每幅圖像標註10個屬性,8個是二分類屬性,某個屬性缺失時標註爲N/A。

RAP:41585圖像,分辨率從36 * 92 到 344 * 554,72個屬性(69個二分類屬性,3個多分類屬性),RAP數據集還針對行人拍攝位置進行了不同viewpoint的分類和不同行人遮擋部位的分類,並在其論文中詳細介紹了不同拍攝視角和不同遮擋部位對行人屬性識別帶來的影響。

以下關於RAP的描述參考自:https://blog.csdn.net/pancongpcc/article/details/96269608
其樣本的viewpoint和occlusion分佈如下所示:
在這裏插入圖片描述
對不同身體部分的標註和一些屬性標註示例如下:
在這裏插入圖片描述RAP-2.0:採集自720P的室內監控場景,2589個人的84928幅圖像,分辨率從33*81到415 * 583,屬性標籤和RAP一致。

HAT:9344幅圖像,27個屬性。

RK-100K:來自於598個室外監控視頻,100000幅圖像,分辨率50*100到758 * 454,目前最大的RAP數據集,26個屬性。

WIDER:13789幅圖像,每幅圖像都包含多個人,平均每幅圖像標註了4個行人,共57524個行人,每個行人14個屬性。

Market1501-attribute:清華門口一個市場的六個相機拍攝的視頻,1501個人的32668個標註框。每一個標註的人至少在兩個相機中出現過。每個圖像標註了27個屬性。

DukeMTMC-attribute:1812個人的34183幅圖像,每個人23個屬性。

CRP:來自於7個視頻的27454幅圖像,標註了四類屬性,分別是年齡、性別、體型和衣服類型。

CAD:1856幅圖像,每幅圖像標註了26個衣服的屬性。

在這裏插入圖片描述

3.2 度量標準

ROC曲線:計算每個屬性類別的分類召回率和FPR,召回率是指正確檢測到的正例佔所有正例的比例,FPR是被誤認爲是正例的負例數量佔所有負例的比例。根據recall和FPR可以繪製ROC曲線,並可以進一步計算AUC。

mean Accuracy:計算每個屬性正負樣本的分類準確率,對所有屬性取平均得到mA。
在這裏插入圖片描述
L是屬性的數量,TPiTP_iTNiTN_i是正確分類的正例和負例的數量,PiP_iNiN_i是正例和負例的全部數量。

example-based 標準
在這裏插入圖片描述N是樣本數量,YiY_i是第i個樣本標註爲正類的標籤,f(x)f(x)表示第i個樣本預測爲正類的標籤。

4 PAR的處理流程

PAR既屬於多任務學習,也屬於多標籤學習。

4.1 多任務學習

不同的子任務間可能存在關聯關係,多任務聯合學習可以共享數據集,改善模型效果。多任務學習一般共享特徵網絡,但對每一個任務應用一個單獨的網絡。PAR屬於多任務學習,並且不同的子任務之間存在一定的關聯,比如年齡和衣物類型之間往往存在關聯。

在這裏插入圖片描述多任務學習有兩種,分爲Hard和Left兩種。Hard如上圖左圖所示,使用一個共享的卷積網絡提取特徵,對各個子任務使用單獨的小網絡進行分類判別。Soft如上圖右圖所示,針對每個任務進行單獨訓練,但通過正則化手段限制各任務的參數比較接近。Hard是常用的多任務學習方式

推薦論文:An overview of multi-task learning in deep neural networks

4.2 多標籤學習

推薦論文:A review on multi-label learning algorithms
在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章