2018-ECCV-Mancs-A Multi-task Attentional Network with Curriculum Sampling

原創

2018-10-13 02:59

Motivation

現有的Re-ID工作都面臨以下的問題：
- loss function的選擇
- 不對準問題
- 尋找高判別力的局部特徵
- 對於rank loss優化中的採樣問題
目前的大多數工作都是針對上述問題中的一兩個來進行解決，能不能用一個統一的框架來解決上述問題呢？

Contribution

提出了Mancs框架來統一解決上述問題
提出了fully attentional block with deep supervision與curriculum sampling來提高模型提取特徵的能力與訓練的效果(這兩個可以借鑑到其他工作上）
本文提出的方法在三個公開數據集上達到了SOTA效果

1 Introduction

Re-ID定義、意義以及難點
研究方向：
- 行人特徵表示
- 距離度量：存在正負樣本不平衡問題，通常對採樣方法要求較高
動機與貢獻

2 Related Work

Attention Network
- MSCAN
- HA-CNN
- CAN
Metric Learning
- triplet loss ==> online hard examples mining(OHEM)
- contrastive loss
Multi-task learning
- triplet loss + softmax
- 本文：triplet loss + focal loss

3 Method

3.1 Training Architecture

如下圖，本文的網絡結構主要由三部分構成：
- backbone network (ResNet50) ==> a multi-scale feature extractor
- attention module ==> attention mask
- loss function:attention loss + triplet loss + focal loss

3.2 Fully Attentional Block

借鑑了SE Block，對其結構進行了改進：
- SE Block的問題：使用GAP導致空間結構信息的丟失 ==> 本文去掉池化層，用1x1的卷積層來代替全連接層來保留空間信息
attention map計算公式：
$M = Sigmoid(Conv(ReLU(Conv(F_i))))$
由attention map得到輸出feature map
$F_o = F_i * M + F_i$

3.3 ReID Task #1: Triplet loss with curriculum sampling

ranking loss相比classification loss在數據量不大的時候有更強的泛化性能
rank branch：共享backbone + a pooling layer + FC layer
採樣方法：OHEM每個選擇最困難的樣本進行參數更新容易導致訓練過程中模型坍塌 ==> curriculum sampling(from easy triplets to hard triplets)
- 對於一個anchor $I_i^a$ ，首先隨機選擇一個positive $I_i^p$
- 根據負樣本到anchor的距離從小到大(hard --> easy)進行排序
- 根據概率分佈(Gaussian distribution $\mathcal{N}(\mu, \sigma)$ )來對負樣本進行選擇

$\mu = [N_n - \frac{N_n}{t_0}t]_+ \\ \sigma = a \times b^{\frac{t-t_0}{t_1 - t_0}}\\$

$I_i^n$ 的選擇概率，隨着 $t$ 增大，選擇困難樣本的概率增大，如下圖
$Pr(I^{n^*}_i=I_i^n|I^a_i) \propto \mathcal{N}(\mu, \sigma)$

final loss for ranking branch

$L_{rank} = \frac{1}{P(K-1)K} \sum\limits_{i=1}^{P(K-1)K}[m+D(f_{rank}(I^a_i),f_{rank}(I^n_i))]_+$

3.4 ReID Task #2: Person classification with focal loss

考慮到classification + ranking效果更好，添加了classification branch，同時考慮到困難樣本應該比簡單樣本更受重視，選擇了focal loss(softmax loss的一種改進版本)，給困難樣本更多的權重
focal loss for classification branch
$L_{cls} = -\frac{1}{PK}\sum \limits_{i=1}^{PK}(1-p_i)^\gamma log(p_i) \\ p_i = Sigmoid_{c_i}(FC(f_{cls}(I_i)))$

3.5 ReID Task #3: Deep supervision for better attention

將不同尺度得到的attention map(與attention mask相乘過的特徵圖)進行平均池化與concatated得到attention feature vector $f_{att}$ 進行來身份分類 ==> accurate attention maps
loss function for attention branch
$L_{att} = \frac{1}{PKC}\sum \limits_{i = 1}^{PK}\sum \limits_{c=1}^Cy_i^clog(q^c_i) + (1-y_i^c)log(1-q^c_i) \\ q^c_i = Sigmoid_c(FC(f_{att}(I_i)))$

3.6 Multi-task learning

three tasks(rank + cls + att)共享backbone，最終的loss function:
$\mathcal{L}= \lambda_{rank}L_{rank} + \lambda_{cls}L_{cls} + \lambda_{att}L_{att}$

3.7 Inference

rank branch的特徵具有更強的泛化性能，在測試階段用來代表行人圖片，如下圖所示

4 Experiments

4.1 Datasets

Market1501、CUHK03、DukeMTMC-reID

4.2 Evaluation Protocol

mAP、CMC
Market1501：both single query and multi-query；CUHK03與DukeMTMC-reID：single query
CUHK03 split：1367/100 and 767/700

4.3 Implementation Details

Pytorch
Pretrained ResNet-50 + 分類層前的2048FC

Data Augmengtation

resize images to 256 x 128 ==> randomly crop with scale in [0.64, 1.0] and aspect ratio in [2, 3] ==> resize back to 256 x 128 ==> randomly horizontally flip with probility 0.5 ==> random erasing ==> subtracted the mean value and divided by the standard deviation

Training Configurations

PK Sampling strategy：Market1501 and DukeMTMC-ReID：P、K = 16 CUHK03：P=32，K=8 DukeMTMC-ReID
160 epochs、 $t_0=30 \ t_1=60 a=15 b=0.001$
$\lambda_{rank}=1,\lambda_{cls}=1,\lambda_{att}=0.2$
$margin \ m=0.5 \ \gamma=2$
Adam optimizer, lr=3x10e-4
gradient clipping to prevent model collision
最後卷積層的ReLU換成了PReLU ==> 增強最後的特徵的表達能力

4.4 Comparisons with the state-of-art methods

Evaluation On Market-1501

Evaluation On CUHK03

Evaluation On DukeMTMC-reID

4.5 Ablation Study

對本文提出的Curriculum Sampling(CS)、Full Attentional Block、Focal Loss、Random Erasing有效性進行了驗證，如下表

cls + rank的baseline已經很高了，本文提出的方法每個提升相對比較小
下圖舉的例子不是很懂，文中該圖說明random erasing與cls有很大的提升

5 Conclusions

本文提出的Mancs能夠學習穩定的特徵在三個常用的公開數據集上取得了SOTA的性能
本文提出的fully attentional block with deep supervision與curriculum sampling的有效性（可以在其他相關任務借鑑）
未來工作：結合數據採樣與增強進一步提供reID特徵的泛化能力

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

論文筆記之Structural Deep Network Embedding

本論文是kdd2016的一篇論文主要的目的也是做node embedding。主要的想法就是通過deep autoencode對node進行embedding，不過在在embedding的時候不僅考慮了1-hop的信息而且考慮

2020-07-08 10:23:34

論文筆記之Fully Convolutional Networks for Semantic Segmentation

最近了解到了Image Semantic Segmentation方面的知識，在此做一個記錄。這篇論文是2015cvpr的best paper，可以說是在cnn上做圖像語義分割的開山之作。 1.語義分割定義：語義就是指物體的

2020-07-08 10:23:34

MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications論文閱讀筆記

論文地址：MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications MobileNet是爲移動和嵌入式設備提出的輕量級網絡

2020-07-07 12:29:52

【Paper Note】Representation Learning-Assisted Click-Through Rate Prediction (DeepMCP) 論文詳解

https://arxiv.org/pdf/1906.04365.pdf 背景以往的點擊率預估模型像FM系列、WDN等模型，都只是考慮特徵和ctr之間的聯繫，阿里的這篇論文，提出了DeepMCP模型，不僅考慮了特徵和ctr之間

2020-07-07 01:30:56

論文筆記——Federated learning framework for mobile edge computing networks

論文筆記——Federated learning framework for mobile edge computing networks 本論文着重研究的是聯邦學習應用於需求預測類問題。一般來說，FL存在的一些問題：非獨立同分布數據

2020-07-06 10:38:33

WWW19 A First Look at Deep Learning Apps on Smartphones

這篇文章有點像行業調查，對目前市場上APP中DL的各個特性進行統計，調研時間從2018.06 ～ 2018.09 大約三個月的時間，作者也說了後續會繼續跟進。作者製作了一個可以嗅探Android apk中DL的軟件，同時對APP

2020-07-06 03:56:57

【論文筆記-AAAI2020】Overcoming Language Priors in VQA via Decomposed Linguistic Representations

這篇博客會大概講解一下論文的工作，以及一些VQA 領域的近況，也會涉及到一些自己的見解。一些容易誤解的地方，我會盡量的表達細緻，方便讀者理解。如果需要深入研究，推薦自行再品讀該論文：https://jingchenchen.git

2020-07-05 19:21:39

[NIPS 2019] Multi-Agent Common Knowledge Reinforcement Learning筆記

文章目錄前言IntroductionProblem settingCommon knowledgeLearning under common knowledge (LuCK)Field-of-view common knowled

强殖装甲凯普

2020-07-05 06:05:25

【論文筆記】TensorFlow深度神經網絡提前穩定特徵重要性

論文地址：Early Stabilizing Feature Importance for TensorFlow Deep Neural Networks 博客裏只給出一下論文中介紹的方法這一章節，論文中前面介紹了神經網絡中特徵

2020-07-05 01:13:40

【論文筆記】CUSBoost：基於聚類的提升下采樣的非平衡數據分類

原論文地址：CUSBoost: Cluster-based Under-sampling with Boosting for Imbalanced Classification Abstract 普通的機器學習方法，對於非平衡數據

2020-07-05 01:13:30

【論文筆記】Deep Survival: A Deep Cox Proportional Hazards Network

相關資源原論文地址：here 論文中使用的深度生存分析庫：DeepSurv，是基於Theano 和 Lasagne庫實現的，支持訓練網絡模型，預測等功能。考慮到DeepSurv庫中存在着一些錯誤以及未實現的功能，博主使用目前主

2020-07-05 01:13:29

論文筆記2：A Single Model CNN for Hyperspectral Image Denoising

2020-07-04 23:28:40

unsupervised image segmentation by backpropagation-論文筆記

這是一個有趣的非監督分割方法代碼短小精悍直接說算法 1.首先對原圖進行超像素分割。 2.使用卷積網絡進行正向傳播。網絡輸出100channel，輸出和輸入大小相同。也就是說，每個輸入像素對應輸出100個像素。這10

2020-07-04 18:40:16

Scaling Up Crowd-Sourcing to Very Large Datasets: A Case for Active Learning-筆記

通過Active Learning（AL）算法，找到最小的需要標註的數據進行訓練，來標記未標記的數據。 AL必須滿需下邊的需求才能作爲crowd-sourced database的默認的最優策略： Generality

2020-07-04 18:40:16

Person Re-identification based on Two-Stream Network with Attention and Pose Features 論文總結筆記

論文：基於注意力和姿勢特徵的雙流網絡行人重識別文章目錄1 摘要2 理論研究2.1 主網絡框架2.2 特徵融合2.2 self-attention2.3 pose estimattion2.4 Bilinear Pooling

若比达法则

2020-07-08 06:30:38

24小時熱門文章

最新文章

最新評論文章