- 也是最早用深度學習方法做Re-ID的工作
- 對跨數據集模型的泛化性能進行了實驗
Motivation
- 傳統方法通常都是將特徵提取與度量學習分開處理的,end-to-end的深度學習在計算視覺各個領域都取得了較大的成功,那麼能不能在Re-ID上用一個統一的框架來聯合進行特徵提取與度量學習呢?
Contribution
- 提出了”Deep Metric Learning”(DML)方法來進行re-ID:SCNN+ cosine distance,該方法有三個優勢:
- end to end學習
- multi-channel filters來捕捉各種特徵,比傳統方法的簡單的融合更加合理(前兩點感覺都是深度學習的基本操作0.0)
- 通過是否共享SCNN的參數來切換視角確定與更一般性的re—ID的任務
- 第一次嚴格意義上進行了跨數據集的實驗,在CUHK Campus數據集上進行模型的訓練,在VIPeR數據集上進行了測試,這種實驗更符合實際場景
1.Introduction
- re-ID的定義以及應用場景:
- cross camera tracking
- behaviour analysis
- object retrieval等等
- 研究的重點:
- Featrue extraction
- Metric Learning
- 動機與貢獻:見上文
2.Related Work
- featrue representation
- 各種特徵:
- HSV color histogram
- LAB color histogram
- SIFT
- LBP histogram
- Gabor features
- 上述 特徵的融合
- 利用人結構的輪廓與對稱性:在預先定義的網格以及精細的局部區域提取顏色和紋理信息
- color invariant signature
- salience matching
- 以後肯定的方向:精度的身體部分分割、行人對齊、姿勢歸一化
- 各種特徵:
- Metric Learning
- 相比標準的距離度量(L1,L2),學習到的度量對Re-ID來說可以得到更具判別力的特徵,並且對於跨視角的人物圖像變化更加魯棒
- 度量的趨勢:從整體->分區域
- siamese neural network
- 最早在1993年用在簽名認證
- 優點:
- 統一端到端框架且目標明確
- 自動學習到最優的度量
- 最後一層一般是用來衡量相似性:
- L1、L2、cosine (cosine對樣本的大小具有不變性)
3. Deep Metric Learning
- 因爲分辨率、光照、姿勢的變化的影響,兩個人的相似性是十分難以度量的,理想的度量可能需要具有很高的非線性–>Deep Learning是一個很有效的學習非線性的工具
A.Architecture
- Re-ID因爲訓練集與測試集label是不一樣的,不能直接用傳統神經網絡的sample–> label模式,本文采用siamese network轉換成sample pair –> label
- 本文的方法將輸入圖片對分成三個重疊部分,每個對應的部分由三個SCNN來匹配,最後預測+1對應同一個人,-1不同人,具體流程如下圖:
- 因爲在probe過程中需要比較相似性,本文最後的輸出爲a similarity score,網絡的結構如下圖:
相似性計算:
本文的網絡有共享SCNN權重與不共享兩種模式:
- 權重共享更適合一般性的任務
- 權重不共享可以更自然的處理特定視角的匹配任務(不同參數的CNN對不同的視角下的特徵進行處理)
B. Convolutional Neural Network
- 本文的CNN由2個卷積層、2個池化層、1個全連接層組成,具體結構如下圖:
- 每層pooling layer包含一個cross channel normalization unit
- 在卷積前對數據進行了0填充,保證輸入輸出大小相同,C1爲7x7, C2爲5x5,激活函數使用的relu
C. Cost Function and Learning
- 三個候選的損失函數,均方損失、指數損失、二項偏差:
- 如圖,hinge cost是作者作爲參考,當cosine輸出爲1(-1),label爲1(-1)時,損失爲0,文中說當符號不相同時,指數損失有最大的loss,應該是隻比了sl
- 同時從圖中可以看出Deviance loss與hinge loss很像,而Hing loss對異常點很魯棒,但在sl=1處不可導,所以選擇Deviance代替。
- 問題:對於re-ID任務什麼算異常值呢?
- BP的推導:
- 訓練的batch size:128
- 64 positive 64 negative
- 將多分類轉換爲二分類後,負樣本的數量遠大於正樣本,本文每個batch隨機從整個負樣本池中選擇(是不是考慮困難樣本更好)
4. Experiment
- 兩種實驗方式:
- 訓練、測試都在VIPeR,使用了view specific SCNN(即不共享網絡參數)
- 在CUHK Campus上訓練,在VIPeR上測試,使用general SCNN (即共享網絡參數)
A. Single Database Person Re-Identification
VIPeR共632個人,每個人兩張照片來自兩個不同的錄像機,隨機分了316個作爲訓練,316個作爲測試,重複了11次,第一次用來調整參數,後10次用來得到結果
1) The Number of Epoch:結果如下圖:
- 2)Asymetric Cost:因爲負樣本遠大於正樣本的數量,在訓練過程中隨機選取來組成batch可能會導致negative pairs under-fitting –> asymmetric costs
- 固定正樣本對l爲1,負樣本對l值取c從0.25到4,如下式子,
- c的選取實驗結果如下表:當c=2時得到最好的性能,說明負樣本應該得到更多的注意:
- 固定正樣本對l爲1,負樣本對l值取c從0.25到4,如下式子,
- 3)results:
- 在epoch=300,c=2下,對於三個身體部分相似性得分進行了加和(這裏是不是加權更好?),結果比較如下:
- 學習得到網絡前兩層卷積核可視化如下:
- 在epoch=300,c=2下,對於三個身體部分相似性得分進行了加和(這裏是不是加權更好?),結果比較如下:
B. Cross Database Person Re-Identification
- 在CUHK Campus數據集上進行訓練,在VIPer上進行測試,對算法的泛化性能有較高的要求,實驗選擇了共享參數的SCNN
- 下圖是一些實驗結果:
- 不同部分以及融合後的的rank curve ,可以看出Body具有最高的判別力,三個融合後有一定提升 問題:爲什麼在VIPeR上效果三個部分差異很小,是數據集太小了麼?
- 識別結果如下表:
- 在CUHK上訓練網絡卷積核可視化結果如下圖,因爲CUHK圖片相比VIPeR有更豐富的紋理與較高的質量,可視化的卷積核有更清晰的結構。而VIPeR中的filers在顏色上有較高的對比度,可能因爲不同的攝像機環境
- 不同部分以及融合後的的rank curve ,可以看出Body具有最高的判別力,三個融合後有一定提升 問題:爲什麼在VIPeR上效果三個部分差異很小,是數據集太小了麼?
Conclusions
- 總結了本文的貢獻
- 第一個將深度學習應用在re-ID問題的工作,同時也是第一個研究跨數據集re-ID問題的工作
- 未來工作:
- 將DML應用到更多的應用
- 探索pre-trained model
- 研究dropout在應用的作用
- 繼續研究如何在跨數據集下得到更加泛化的模型