2018-CVPR-Efficient and Deep Person Re-Identification using Multi-Level Similarity

論文地址

Motivation

目前的方法只考慮在某一個特徵的卷積層輸出來計算相似性，是否可以使用多尺度提高相似度的計算的準確性呢？
許多工作假定相關視覺特徵不會平移太大的距離，沒有在整張圖上考慮相關性，很容易丟失信息
之前都是在特徵圖的rigid part來計算product或者difference，沒有對於尺度、旋轉的不變性

Contribution

提出了全卷積Siamese網絡，包含能夠高效實現且帶有注意力機制的Convolution Similarity Network來改進兩個圖片相似度的計算
在不同的層次計算視覺相似性，並結合多層次的信息提高匹配的魯棒性
通過大量的實驗證明本文提出低複雜度與內存使用的模型與SOTA能達到相當的性能

1.Introduction

reid定義、意義、挑戰
現在工作兩個主流方向：
- 特徵表示學習
- 有效的距離度量
深度學習在re-id上取得的成功
存在侷限性 ==> 動機與貢獻
多層次相似度對於識別的幫助如下圖：低級特徵(衣服顏色)、高級特徵(揹包)等等

2.Related Work

傳統方法：handcrafted feature + metric learning
深度學習方法：
- Siamese網絡二分類
- rank problem
- 分類方式提取特徵

3.Proposed Method

3.1.Model description

網絡的整體結構如下圖：

Convolution similarity network(CSN): 用來衡量個輸入的相似性
- 利用STNs來提取有意義的局部區域特徵
- 將局部部分看作卷積核來計算兩組特徵之間的相關性

STN可以用來緩解大的視角差異以及遮擋問題，從圖片中找到有意義的內容，細節介紹參考Spatial Transformer Networks
- 兩個權重不共享的全卷積STNs， $S T N_{1}$ 對應 $x_{i}^{(2)}$ , $S T N_{2}$ 對應 $x_{i}^{3}$
- 實驗發現很難通過STNs從 $x_{i}^{(j)}$ 的全局發現相對重要的區域，本文將 $x_{i}^{(j)}$ 劃分成了部分重疊的三個部分，upper，middle，bottom，共享localization net
- sampler的輸出對於 $x_{i}^{(2)}$ 爲 $f_{2} \times f_{2}$ ， $x_{i}^{(3)}$ 爲 $f_{3} \times f_{3}$ ， $f_{2}$ 大於 $f_{3}$
- 將提取的區域當做卷積核，在另外一個特徵圖上進行卷積操作，stride=1，通過計算cross-correlation來得到相似性
  
  $s_{i}^{j, p a r t} = x_{i}^{j} * x_{i^{,}}$
- depth wise convolution

Combination of visual similarities from different levels:

結合低級與高級特徵：
- 將第二個以及第三個卷積的 $s i m_{2}$ 與 $s i m_{3}$ concatenated得到10 x 4 x 1152個相似分數圖
- 再通過三個卷積層conv4(1x1), conv5(3x3)， conv6(1x1)處理相似得分圖

Objective function: 結合了classification與ranking

二分類使用softmax loss

L_{c l s} = \frac{1}{m} \sum_{i = 1}^{m} [(1 - y) p (y = 0 | {x_{1}, x_{2}})] + y p (y = 1 | {x_{1}, x_{2})})

使用二分類損失會忽略正確的ranking，可以結合ranking loss來緩解該問題，本文認爲全局特徵難以突出最具有判別力的特徵，不適合做ranking ==> 基於局部視覺特徵的ranknet
- 三個卷積層
- $x_{i}^{j, u p p e r}, x_{i}^{j, m i d d l e}, x_{i}^{(j, b o t t o m)}$ ==> conv(3x3x96) ==> max pooling ==> concatenated(豎直方向) ==> conv(3x3x96) ==> 不同層的特徵圖(concatenated) ==> GAP ==> linear embedding ==> 256維圖片的attended parts的特徵向量 ==> $L_{2} n o r m a l i z e d$
- Contrastive loss

L_{c t r} = \frac{1}{2 m} * \sum_{i = 1}^{m} [y d^{2} + (1 - y) m a x (0, α - d)^{2}] d = ‖ r_{1} - r_{2} ‖

整個網絡的loss

L_{c o m} = L_{c l s} + L_{c t r}

- 測試階段最後的相似得分計算:

S i m i S c o r e = s_{s o f t m a x} + λ * \frac{1}{d + ϵ}

3.2. Discussion

Efficiency.相比從tensor直接通過切片來選取rigid part，本文通過全卷積STN來選取有意義的局部特徵在目前深度學習框架下更加容易實現

Learned visual similarity from different levels.

由下圖可以看出不同層具有不同層次的特徵(關於CSN2的解釋有點懵)

Model extension.

增加更多的CSN模塊，大幅度提高了性能，能達到與用pre-trained模型相當的性能

4.Experiments

4.1.Datasets and evaluation metrics

CUHK03、CUHK01、VIPeR
CMC、mAP

4.2.Implementation details

TensorFlow
ADAM、BN
learning rate：0.0005、Weighting decay：0.0005
Batch size：256 for CUHK03 128 for other
$f_{1}$ 與 $f_{2}$ 分別爲10、5
數據增強：隨機crop、水平翻轉
對於每個正樣本選取兩個負樣本
對於transformation parameters作了大於0；考慮到旋轉很少在實際中發生，針對 $r_{w}$ 與 $r_{h}$ 作了 $L_{1}$
part的劃分，對於 $x_{i}^{(2)}$ row1-20爲upper part,10-30爲middle part，20-40爲bottom part，對於 $x_{i}^{(3)}$ ,row1-10爲upper part，5-15爲middle row，10-20爲bottom row

4.3. Comparison with state-of-the-arts

4.4. Ablation analysis

移除了contrastive loss $L_{c t r}$
探究了結合不同層次視覺相似性的重要性
- 高級語義特徵相比低級特徵更加重要
- 結合不同層次視覺特徵對性能的提升有幫助
不同網絡配置的實驗：
- C1：將圖片分爲三個部分的效果
- C2：將STN替換爲固定的中心裁剪
- C3：只使用Level4的相似性
- C4：原模型

4.5. Complexity Analysis

與五個最近提出模型進行了大小與計算複雜度的比較，本文的模型相對較小且有較高的性能

5.Conclusion

本文提出的全卷積Siamese網絡
- 從一個輸入圖片的局部提取特徵，並與另一個圖片通過depth-wise convolution高效計算視覺相似性
- 利用在不同卷積層的多個CSNs得到不同層次的視覺相似性
在局部區域通過Contrastive loss來提取特徵(ranknet)
大量的實驗證明了本文方法以較小的參數與計算複雜度達到了與SOTA方法相當的性能
通過Ablation與可視化方法證明了不同層次的特徵對性能提升的貢獻

2018-CVPR-Efficient and Deep Person Re-Identification using Multi-Level Similarity

Motivation

Contribution

1.Introduction

2.Related Work

3.Proposed Method

3.1.Model description

3.2. Discussion

4.Experiments

4.1.Datasets and evaluation metrics

4.2.Implementation details

4.3. Comparison with state-of-the-arts

4.4. Ablation analysis

4.5. Complexity Analysis

5.Conclusion

python-4.替換空格

2016 ECCV-Gated Siamese Convolutional Neural Network Architecture for Human Re-ID

2014 CVPR-DeepReID Deep Filter Pairing Neural Network for Person Re-Identification

2017 TOMM-A Discriminatively Learned CNN Embedding for Person Re-identification

python-2.找出數組中重複的數字

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結