2014 ICPR-Deep Metric Learning for Person Re-Identification

Motivation

傳統方法通常都是將特徵提取與度量學習分開處理的，end-to-end的深度學習在計算視覺各個領域都取得了較大的成功，那麼能不能在Re-ID上用一個統一的框架來聯合進行特徵提取與度量學習呢？

提出了”Deep Metric Learning”(DML)方法來進行re-ID:SCNN+ cosine distance,該方法有三個優勢：
- end to end學習
- multi-channel filters來捕捉各種特徵，比傳統方法的簡單的融合更加合理（前兩點感覺都是深度學習的基本操作0.0)
- 通過是否共享SCNN的參數來切換視角確定與更一般性的re—ID的任務
第一次嚴格意義上進行了跨數據集的實驗，在CUHK Campus數據集上進行模型的訓練，在VIPeR數據集上進行了測試，這種實驗更符合實際場景

re-ID的定義以及應用場景：
- cross camera tracking
- behaviour analysis
- object retrieval等等
研究的重點：
- Featrue extraction
- Metric Learning
動機與貢獻：見上文

featrue representation
- 各種特徵：
  - HSV color histogram
  - LAB color histogram
  - SIFT
  - LBP histogram
  - Gabor features
  - 上述特徵的融合
- 利用人結構的輪廓與對稱性：在預先定義的網格以及精細的局部區域提取顏色和紋理信息
  - color invariant signature
  - salience matching
- 以後肯定的方向：精度的身體部分分割、行人對齊、姿勢歸一化
Metric Learning
- 相比標準的距離度量(L1,L2)，學習到的度量對Re-ID來說可以得到更具判別力的特徵，並且對於跨視角的人物圖像變化更加魯棒
- 度量的趨勢：從整體->分區域
siamese neural network
- 最早在1993年用在簽名認證
- 優點：
  - 統一端到端框架且目標明確
  - 自動學習到最優的度量
- 最後一層一般是用來衡量相似性：
  - L1、L2、cosine (cosine對樣本的大小具有不變性)

因爲分辨率、光照、姿勢的變化的影響，兩個人的相似性是十分難以度量的，理想的度量可能需要具有很高的非線性–>Deep Learning是一個很有效的學習非線性的工具

Re-ID因爲訓練集與測試集label是不一樣的，不能直接用傳統神經網絡的sample–> label模式，本文采用siamese network轉換成sample pair –> label
本文的方法將輸入圖片對分成三個重疊部分，每個對應的部分由三個SCNN來匹配，最後預測+1對應同一個人，-1不同人，具體流程如下圖：
因爲在probe過程中需要比較相似性，本文最後的輸出爲a similarity score，網絡的結構如下圖：
相似性計算：

$s = \frac{B_{1} (x)^{T} B_{2} (y)}{\sqrt{B_{1} (x)^{T} B_{1} (x) \sqrt{B_{2} (y)^{T} B_{2} (y)}}}$
本文的網絡有共享SCNN權重與不共享兩種模式：
- 權重共享更適合一般性的任務
- 權重不共享可以更自然的處理特定視角的匹配任務（不同參數的CNN對不同的視角下的特徵進行處理）

三個候選的損失函數，均方損失、指數損失、二項偏差：
$J_{s q u a r e} = (s - l)^{2}, J_{e x p} = e^{- s l}, J_{d e v} = l n (e^{- 2 s l} + 1)$
如圖，hinge cost是作者作爲參考，當cosine輸出爲1(-1)，label爲1(-1)時，損失爲0，文中說當符號不相同時，指數損失有最大的loss，應該是隻比了sl
同時從圖中可以看出Deviance loss與hinge loss很像，而Hing loss對異常點很魯棒，但在sl=1處不可導，所以選擇Deviance代替。
- 問題:對於re-ID任務什麼算異常值呢?
BP的推導：

J_{d e v} = l n (e^{- 2 C o s i n e (B_{1} (x), B_{2} (y))^{l} + 1}) . \frac{\partial J_{d e v}}{\partial x} = \frac{- 2 l e^{- 2 C o s i n e (B_{1} (x), B_{2} (y))^{l}}}{e^{- 2 C o s i n e (B_{1} (x), B_{2} (y))^{l}} + 1} \cdot \frac{1}{‖ B_{1} (x) ‖ ‖ B_{2} (y)} \cdot (B_{2} (y) - \frac{B_{1} (x)^{T} B_{2} (y) B_{1} (x)}{B_{1} (x)^{T} B_{1} (x)} \cdot \frac{d B_{1}}{d x}, \frac{\partial J_{d e v}}{\partial y} = \frac{- 2 l e^{- 2 C o s i n e (B_{1} (x), B_{2} (y))^{l}}}{e^{- 2 C o s i n e (B_{1} (x), B_{2} (y))^{l}} + 1} \cdot \frac{1}{‖ B_{1} (x) ‖ ‖ B_{2} (y)} \cdot (B_{1} (x) - \frac{B_{2} (y)^{T} B_{1} (x) B_{2} (y)}{B_{2} (y)^{T} B_{2} (y)} \cdot \frac{d B_{2}}{d y}

訓練的batch size:128
- 64 positive 64 negative
- 將多分類轉換爲二分類後，負樣本的數量遠大於正樣本，本文每個batch隨機從整個負樣本池中選擇（是不是考慮困難樣本更好）

兩種實驗方式：
- 訓練、測試都在VIPeR，使用了view specific SCNN（即不共享網絡參數）
- 在CUHK Campus上訓練，在VIPeR上測試，使用general SCNN （即共享網絡參數）

VIPeR共632個人，每個人兩張照片來自兩個不同的錄像機，隨機分了316個作爲訓練，316個作爲測試，重複了11次，第一次用來調整參數，後10次用來得到結果
1） The Number of Epoch:結果如下圖:
2）Asymetric Cost：因爲負樣本遠大於正樣本的數量，在訓練過程中隨機選取來組成batch可能會導致negative pairs under-fitting –> asymmetric costs
- 固定正樣本對l爲1，負樣本對l值取c從0.25到4，如下式子，
  $l = {\begin{cases} 1 & for positive pair \\ - c & for negative pair \end{cases}$
- c的選取實驗結果如下表：當c=2時得到最好的性能，說明負樣本應該得到更多的注意：
3）results:
- 在epoch=300，c=2下，對於三個身體部分相似性得分進行了加和（這裏是不是加權更好？），結果比較如下：
- 學習得到網絡前兩層卷積核可視化如下：

在CUHK Campus數據集上進行訓練，在VIPer上進行測試，對算法的泛化性能有較高的要求，實驗選擇了共享參數的SCNN
下圖是一些實驗結果：
- 不同部分以及融合後的的rank curve ，可以看出Body具有最高的判別力，三個融合後有一定提升問題:爲什麼在VIPeR上效果三個部分差異很小，是數據集太小了麼？
- 識別結果如下表：
- 在CUHK上訓練網絡卷積核可視化結果如下圖，因爲CUHK圖片相比VIPeR有更豐富的紋理與較高的質量，可視化的卷積核有更清晰的結構。而VIPeR中的filers在顏色上有較高的對比度，可能因爲不同的攝像機環境

總結了本文的貢獻
第一個將深度學習應用在re-ID問題的工作，同時也是第一個研究跨數據集re-ID問題的工作
未來工作：
- 將DML應用到更多的應用
- 探索pre-trained model
- 研究dropout在應用的作用
- 繼續研究如何在跨數據集下得到更加泛化的模型