2018-CVPR-Harmonious Attention Network for Person Re-Identification

论文地址
代码实现【Pytorch】

Motivation

  • 对于大幅度的姿势变化以及错检带来的行人框对准问题,现有方法采用constrained attention selection mechanisms解决并不是最优的,如何更好的优化该问题呢?

Contribution

  • 提出了新的联合学习多尺度注意力徐州与特征表示方法
  • Harmonious Attention Moudle
    • hard region-level
    • soft pixel-level
      ==> a lightweight Harmouious Attention module
  • cross-attention interaction learning scheme:进一步提高注意力选择与特征表示的兼容性

1.Introduction

  • 本文关注的问题:
    • 检测算法带来的对准、背景混杂、遮挡、缺失身体问题
    • 不同摄像头视角下姿势变化的图像匹配不对准问题
  • 现有方法解决思路:
    • 成对图像匹配中的局部区域校准和显着性加权 ==> 缺点:依赖手工特征,缺少深度特征的判别力
    • Attention deep learning model:借助现有分类模型,过于复杂且只有粗糙的区域注意力,忽视了细节信息,对小数据集的训练不是很有效
  • 本文将注意力选择与特征表示进行联合学习,提出了一个轻量级网络HACNN

2.Related Work

  • attention selection techniques:
    • hand-crafted features
  • attention deep learning methods(PDC等):
    • regional attention selection sub-network(hard attenion)
    • soft attention
  • HA-CNN的优势:
    • soft + hard
    • multi-level correlated attention
    • cross-attention interaction learning

3. Harmonious Attention Network

  • 目标:在剧烈的视角变化的情况下学到最优的深度特征表示模型
HA-CNN Overview
- a harmonious attention learning scheme:对于边界框未知的不对准进行attention selection - hard attention ==> local branch - soft attention ==> global branch - a cross-attention interaction learning scheme between the local and global branches:提高柔和与兼容性来同时优化每一个branch

3.1.Harmonious Attention Learning

  • hard regional attention(STN) + soft spatial(RAN) + channel attention(SE)
(Ⅰ)Soft Spatial-Channel Attention

(1) Spatial attention:

  • 4层的网络(10个参数)
    • a global cross-channel averaging pooling layer(通道维度池化)
    • 3 x 3 conv s = 2
    • resizing bilinear layer
    • scaling conv layer:自适应学习融合尺寸,达到与通道注意力的最优融合
  • 跨通道池化公式定义: h×w×ch \times w \times c ==> h×w×1h \times w \times 1 ,对于第二层的卷积降低了c倍参数
    Sinputl=1ci=1cX1:h,1:w,il S^l_{input}= \frac{1}{c}\sum_{i=1}^{c}X^l_{1:h,1:w,i}
  • cross-channel pooling合理性:所有通道共享相同的空间注意力图

Channel Attention

  • 4-layers
    squeeze-and-excitation sub-network
(Ⅱ)Hard Regional Attention
  • 作用:利用STN思想,在不同的层次通过转换矩阵定位潜在的TT个判别区域
    Al=[sh0tx0swty] \mathbf{A}^l = \left[ \begin{matrix} s_h & 0 & t_x \\ 0 & s_w & t_y \\ \end{matrix} \right]
  • 与STN的区别:
(Ⅲ)Cross-Attention Interaction Learning
  • 通过全局与局部特征的交互来提高联合学习soft与hard attention的效果:

    • 利用Hard attention产生的区域将全局与局部特征对应
      XLl,k=XLl,k+XG(l,k) \mathbf{X}_L^ {l,k} = \mathbf{X}_L^{l,k}+\mathbf{X}_G ^{(l,k)}
  • 反向传播过程中,全局分支的参数通过全局与局部损失联合进行优化
    ΔWG(l)=LGXG(l)XG(l)WG(l)+k=1TLLX~G(l,k)X~G(l,k)WG(l) \Delta\mathbf{W}_G^{(l)} = \frac{\partial\mathcal{L}_G}{\partial\mathbf{X}_G^{(l)}}\frac{\partial\mathbf{X}_G^{(l)}}{\partial\mathbf{W}_G^{(l)}} + \sum_{k=1}^T\frac{\partial\mathcal{L}_L}{\partial\widetilde\mathbf{X}_G^{(l,k)}}\frac{\partial\widetilde\mathbf{X}_G^{(l,k)}}{\partial\mathbf{W}_G^{(l)}}

3.2. Person Re-ID by HA-CNN

  • 将行人图片通过HACNN得到1024维的特征表示,并计算l2l_2距离进行排序

4. Experiments

Datasets and Evaluation Protocol
  • CUHK03、Market-1501、DukeMTMC
  • CMC与mAP
Implementation Details
  • Tensorflow
  • Inception units:d1=128,d2=256,d3=384d_1=128, d_2=256,d_3=384
  • T=4T=4
  • Adam、lr:5x10e-4、β1=0.9,β2=0.999\beta_1=0.9, \beta_2=0.999
  • batch size:32、epoch:150、momentum:0.9
  • no augmengtation method

4.1. Comparisons to State-of-the-Art Methods

Evaluation on Market-1501
Evaluation on DukeMTMC-ReID
Evaluation on CUHK03

4.2. Further Analysis and Discussions

Effect of Different Types of Attention
  • 评估不同的attention component
    • 每个component都对性能有提升
    • SSA与SCA结合有互补作用
    • hard与soft attention结合进一步提升了性能
Effect of Cross-Attention Interaction Learning
CAIL对性能提升显著
Effect of Joint Local and Global Features
  • 全局特征与局部特征具有互补性
Visualisation of Harmonious Attention
  • 不同层次的HA与SA的可视化
Model Complexity

5. Conclusion

  • 提出了轻量级网络HACNN,在三个基准数据上取得了SOTA方法
  • 相比其他工作,本文通过结合soft、hard attention提出了Harmounious Attention Module,能更好解决不对准问题以及提高attention方法的互补性
  • 提出了CAIL来进一步优化模型的学习

思考

  • 本文工作充分利用了现有的attention方法,并没有借助ImageNet预训练模型,取得了SOTA性能,是否今后的工作也可以进一步尝试在re-id数据集上更有针对性的搭建模型呢
  • hard attention得到的区域包含很多噪声,有没有更好的方法更精准的定位呢?
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章