2014 ICPR-Deep Metric Learning for Person Re-Identification

論文地址

  • 也是最早用深度學習方法做Re-ID的工作
  • 對跨數據集模型的泛化性能進行了實驗

Motivation

  • 傳統方法通常都是將特徵提取與度量學習分開處理的,end-to-end的深度學習在計算視覺各個領域都取得了較大的成功,那麼能不能在Re-ID上用一個統一的框架來聯合進行特徵提取與度量學習呢?

Contribution

  • 提出了”Deep Metric Learning”(DML)方法來進行re-ID:SCNN+ cosine distance,該方法有三個優勢:
    • end to end學習
    • multi-channel filters來捕捉各種特徵,比傳統方法的簡單的融合更加合理(前兩點感覺都是深度學習的基本操作0.0)
    • 通過是否共享SCNN的參數來切換視角確定與更一般性的re—ID的任務
  • 第一次嚴格意義上進行了跨數據集的實驗,在CUHK Campus數據集上進行模型的訓練,在VIPeR數據集上進行了測試,這種實驗更符合實際場景

1.Introduction

  • re-ID的定義以及應用場景:
    • cross camera tracking
    • behaviour analysis
    • object retrieval等等
  • 研究的重點:
    • Featrue extraction
    • Metric Learning
  • 動機與貢獻:見上文

2.Related Work

  • featrue representation
    • 各種特徵:
      • HSV color histogram
      • LAB color histogram
      • SIFT
      • LBP histogram
      • Gabor features
      • 上述 特徵的融合
    • 利用人結構的輪廓與對稱性:在預先定義的網格以及精細的局部區域提取顏色和紋理信息
      • color invariant signature
      • salience matching
    • 以後肯定的方向:精度的身體部分分割、行人對齊、姿勢歸一化
  • Metric Learning
    • 相比標準的距離度量(L1,L2),學習到的度量對Re-ID來說可以得到更具判別力的特徵,並且對於跨視角的人物圖像變化更加魯棒
    • 度量的趨勢:從整體->分區域
  • siamese neural network
    • 最早在1993年用在簽名認證
    • 優點:
      • 統一端到端框架且目標明確
      • 自動學習到最優的度量
    • 最後一層一般是用來衡量相似性:
      • L1、L2、cosine (cosine對樣本的大小具有不變性)

3. Deep Metric Learning

  • 因爲分辨率、光照、姿勢的變化的影響,兩個人的相似性是十分難以度量的,理想的度量可能需要具有很高的非線性–>Deep Learning是一個很有效的學習非線性的工具

A.Architecture

  • Re-ID因爲訓練集與測試集label是不一樣的,不能直接用傳統神經網絡的sample–> label模式,本文采用siamese network轉換成sample pair –> label
  • 本文的方法將輸入圖片對分成三個重疊部分,每個對應的部分由三個SCNN來匹配,最後預測+1對應同一個人,-1不同人,具體流程如下圖:


  • 因爲在probe過程中需要比較相似性,本文最後的輸出爲a similarity score,網絡的結構如下圖:


  • 相似性計算:

    s=B1(x)TB2(y)B1(x)TB1(x)B2(y)TB2(y)
  • 本文的網絡有共享SCNN權重與不共享兩種模式:

    • 權重共享更適合一般性的任務
    • 權重不共享可以更自然的處理特定視角的匹配任務(不同參數的CNN對不同的視角下的特徵進行處理)

B. Convolutional Neural Network

  • 本文的CNN由2個卷積層、2個池化層、1個全連接層組成,具體結構如下圖:


  • 每層pooling layer包含一個cross channel normalization unit
  • 在卷積前對數據進行了0填充,保證輸入輸出大小相同,C1爲7x7, C2爲5x5,激活函數使用的relu

C. Cost Function and Learning

  • 三個候選的損失函數,均方損失、指數損失、二項偏差:
    Jsquare=(sl)2,Jexp=esl,Jdev=ln(e2sl+1)



  • 如圖,hinge cost是作者作爲參考,當cosine輸出爲1(-1),label爲1(-1)時,損失爲0,文中說當符號不相同時,指數損失有最大的loss,應該是隻比了sl
  • 同時從圖中可以看出Deviance loss與hinge loss很像,而Hing loss對異常點很魯棒,但在sl=1處不可導,所以選擇Deviance代替。
    • 問題:對於re-ID任務什麼算異常值呢?
  • BP的推導:

Jdev=ln(e2Cosine(B1(x),B2(y))l+1).Jdevx=2le2Cosine(B1(x),B2(y))le2Cosine(B1(x),B2(y))l+11B1(x)B2(y)(B2(y)B1(x)TB2(y)B1(x)B1(x)TB1(x)dB1dx,Jdevy=2le2Cosine(B1(x),B2(y))le2Cosine(B1(x),B2(y))l+11B1(x)B2(y)(B1(x)B2(y)TB1(x)B2(y)B2(y)TB2(y)dB2dy
  • 訓練的batch size:128
    • 64 positive 64 negative
    • 將多分類轉換爲二分類後,負樣本的數量遠大於正樣本,本文每個batch隨機從整個負樣本池中選擇(是不是考慮困難樣本更好)

4. Experiment

  • 兩種實驗方式:
    • 訓練、測試都在VIPeR,使用了view specific SCNN(即不共享網絡參數)
    • 在CUHK Campus上訓練,在VIPeR上測試,使用general SCNN (即共享網絡參數)

A. Single Database Person Re-Identification

  • VIPeR共632個人,每個人兩張照片來自兩個不同的錄像機,隨機分了316個作爲訓練,316個作爲測試,重複了11次,第一次用來調整參數,後10次用來得到結果

  • 1) The Number of Epoch:結果如下圖:



  • 2)Asymetric Cost:因爲負樣本遠大於正樣本的數量,在訓練過程中隨機選取來組成batch可能會導致negative pairs under-fitting –> asymmetric costs
    • 固定正樣本對l爲1,負樣本對l值取c從0.25到4,如下式子,
      l={1for positive paircfor negative pair
    • c的選取實驗結果如下表:當c=2時得到最好的性能,說明負樣本應該得到更多的注意:


  • 3)results:
    • 在epoch=300,c=2下,對於三個身體部分相似性得分進行了加和(這裏是不是加權更好?),結果比較如下:





    • 學習得到網絡前兩層卷積核可視化如下:


B. Cross Database Person Re-Identification

  • 在CUHK Campus數據集上進行訓練,在VIPer上進行測試,對算法的泛化性能有較高的要求,實驗選擇了共享參數的SCNN
  • 下圖是一些實驗結果:
    • 不同部分以及融合後的的rank curve ,可以看出Body具有最高的判別力,三個融合後有一定提升 問題:爲什麼在VIPeR上效果三個部分差異很小,是數據集太小了麼?


    • 識別結果如下表:


    • 在CUHK上訓練網絡卷積核可視化結果如下圖,因爲CUHK圖片相比VIPeR有更豐富的紋理與較高的質量,可視化的卷積核有更清晰的結構。而VIPeR中的filers在顏色上有較高的對比度,可能因爲不同的攝像機環境



Conclusions

  • 總結了本文的貢獻
  • 第一個將深度學習應用在re-ID問題的工作,同時也是第一個研究跨數據集re-ID問題的工作
  • 未來工作:
    • 將DML應用到更多的應用
    • 探索pre-trained model
    • 研究dropout在應用的作用
    • 繼續研究如何在跨數據集下得到更加泛化的模型
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章