年份:2015
會議:3rd IAPR Asian Conference on Pattern Recognition (ACPR)
機構:中國科學院.自動化研究所.模式識別國家重點實驗室
網絡:DeepSAR DeepMAR
源碼(論文沒有提供源碼,是他人實現的):https://github.com/kyu-sz/DeepMAR_deploy
該論文是後期被行人屬性相關論文引用最多的。當前(2015年)屬性識別問題主要針對兩個應用場景,自然場景和監控場景。本篇論文針對監控場景。
該論文就行人屬性識別領域存在的兩個主要問題(手工找特徵不能很好的適用視頻場景、屬性之間的關係被忽略),主要提出了兩個網絡,DeepSAR和DeepMAR。
DeepSAR:獨立識別每個屬性。將每一個屬性的識別當作二元分類問題,然後一個一個識別每個屬性。
DeepMAR:利用屬性之間的關係,如長髮更有可能是女性,所以頭髮的長度有利於幫助識別性別屬性。將所有屬性的識別一次性完成,多標籤分類問題。
網絡結構:
解釋:
DeepSAR和DeepMAR共用ConvNet,其中ConvNet包括5個卷積層,3個全連接層。其後對應的激活單元是ReLU。
前兩個卷積層後面有Max Pooling層和Local Normalization層。最後一個卷積層後有Max Pooling層。
模型在CaffeNet(CaffeNet和AlexNet基本一致,除了交換了歸一化和池化的順序)的基礎上進行finetune。
DeepSAR的Loss function:
其中,N是行人圖片的數量,L是屬性的數量。pˆi,yil是第l個屬性輸出的softmax output probability。
DeepMAR的loss function:
由於屬性分佈不均衡,數據集中某些屬性正樣本出現次數很少。提出了改進的損失函數,帶上了wl。
其中,wl是第l個屬性的損失權重,pl是訓練集中第l個屬性的出現比例。σ是調優參數(設爲1)
在PETA上的實驗:
總19000張——訓練集:驗證集:測試集 = 9500:1900:7600(PETA數據集常用分類方法)
DeepSAR:
在CaffeNet上finetune,由於缺少正樣本,只有最後一層個全連接層finetune了。而且將正樣本隨機複製。
圖像處理:1.調整爲256*256 2.隨機鏡像和剪裁爲227*227
不同屬性用不同的learning rate、weight decay、iterations。
DeepMAR:
同樣CaffeNet
使用加權的sigmoid交叉熵損失
初始learning rate 0.001+初始weight decay 0.005
對比:馬爾可夫隨機場 MRFr2(手工特徵+沒有建模屬性間關係)
結果對比:
結論:
1. 識別準確率基本都比 MRFr2高
2. 小比例的屬性上,兩個網絡準確率都更高,而這些屬性對於行人重識別來說更重要
3. 在屬性之間的關係的幫助下,DeepMAR利用正例率低的屬性來幫助識別正例率高的屬性
4. 但是如果某個屬性佔比太少(0.04以下級別),則識別準確率較低
在APiS上的實驗:
總3661張(正常+監控場景),圖像處理:調整爲128*48。loss fuction, initial learning rate, and weight decay和上個實驗一樣。每20個epoch就減小learning rate1/10,100個epoch以後收斂了。由於圖像太小,所以沒有訓練DeepSAR,容易overfitting。(由於後期很少有在這個數據集上進行的實驗,不多贅述)
對比得出的結論:
1. DeepMAR在小像素圖片上的表現更好
2. 是因爲利用了屬性之間的關係
總結以及未來工作:
DeepSAR在PETA數據集的低佔比的屬性上表現很好
DeepMAR在兩個數據集上的表現都很好。
以後要爲多標籤聯合學習任務發掘新的loss function
將這種多標籤學習任務輔助於行人重識別