Deep Spatial Feature Reconstruction for Partial Person Re-identification: Alignment-free Approach笔记

Paper:https://arxiv.org/abs/1801.00881
Code:https://github.com/lingxiao-he/Partial-Person-ReID
前言:这是一篇关于partial行人重识别的方向的论文,收录于2018年的CVPR。全文是基于query是partial图像,而gallery是完整的行人图像。
摘要:Partial行人重识别由于行人图像是局部可见的导致行人匹配具有挑战性。然而对于partial行人重识别的研究也比较少。针对此问题,本文提出了快速、准确的匹配方法。该方法利用全卷积网络(FCN)生成固定大小的空间特征图,保证像素级特征的一致性。为了匹配size不同的两张图像,进一步提出了避免精确对齐的深度空间特征重构(DSR)方法。具体来说,DSR利用当前流行的字典学习模型的重构误差来计算不同空间特征图之间的相似度。由此,期望FCN可以增加相同行人的相似性,减少不同行人的相似性。在partial行人重识别的数据集上结果表明证明了方法的有效性。而且在完整行人重识别上也取得了极具竞争力的结果。
相关工作:滑动窗口匹配(SWM)通过构造一个和query图像size相同的滑动窗口,用它在gallery图像上检索最相似的区域,此方式为partial行人重识别提供了解决思路。然而这样方式需要query图像的size小于gallery图像。更进一步,一些方法采用图像分块的方式来代替以上方法。然后,上述方法耗时较长且需要良好的前景对齐,而且相关区域需要重复的特征提取。
本文提出了一种新颖且快速的partial行人重识别框架可以实现size不同的成对图像的匹配。利用FCN生成一定size的空间特征图,可以将其视为像素级特征矩阵。受启发于字典学习在人脸识别领域的巨大成功,提出了基于深度空间特征重构的端到端模型,可以基于gallery中的图像的空间特征稀疏重构出query图像空间特征图上的每一个像素。基于以上算法,模型不需要严格的图像size一致,自然也避免了对齐的耗时。具体来说,为FCN设计目标函数,使得同一个ID的图像的空间特征图重建误差小于不同ID图像空间特征图的重构误差。
在这里插入图片描述
知识点解析:
a)FCN:原始的CNN由于全连接层的存在需要特定size的输入,由于partial行人图像有不一的size/scale而无法保证。因此本文将所有的全连接层一出移除而知保留卷积层和池化层,具体结构图如下。
在这里插入图片描述
b)Deep Spatial Feature Reconstruction(DSR):主要用来测量不同大小的成对图像的相似性。假设给定一对图像,分别为partial图像II和完整图像JJ,经过FCN卷积之后的空间特征图为xxyy,其大小用w×h×dw \times h \times d,将xx分成NN个块,N=w×hN = w \times h,因此xn=1×1×dx_n = 1 \times 1 \times d,具体公式如下:
在这里插入图片描述

在这里插入图片描述
因此,可以将YY利用线性组合来表示xnx_n,也就是,搜索相似块来重构xnx_n。因此,需求出xnx_n关于YY的稀疏系数wnw_nwn=M×1w_n = M \times 1。由于重建xnx_n需较少的YY模块,因此使用L1L_1正则化约束,具体公式如下:
在这里插入图片描述
β\beta用来控制编码向量的稀疏性。xnYwn22||x_n - Yw_n||_2^2用来表示xnx_nYY的相似性,汇总如下:
在这里插入图片描述
WW表示稀疏系数重构矩阵。以上即为DSR的流程,具体如图和伪代码如下所示:
在这里插入图片描述
在这里插入图片描述
c)Fine-tuning on Pretrained FCN with DSR:本文采用分类任务来训练FCN,如下图图。为提升模型提取显著特征的能力,使用带有DSR的迁移学习来对卷积层进行更新,如下图。DSR鼓励同一ID的特征映射相似,不同ID的特征映射不同。DSR可以视为验证信号,损失函数定义如下:
在这里插入图片描述
两个特征属于同一ID时α=1\alpha = 1,否则α=1\alpha = -1。本文采用交替训练来优化参数,1,固定θ\theta(FCN),优化WW(DSR)。
在这里插入图片描述
2,固定wcw_c,优化θ\theta
在这里插入图片描述
d)Multi-scale Block Representation:提取query图像的尺度无约束特征对于partial行人重识别具有挑战性和重要意义。为了减弱尺度失配的影响,在DSR提出多尺度块表示。
在这里插入图片描述
本文具体使用三种尺度块:1×11\times 12×22\times 23×33\times 3,这些block通过滑动窗口的方式进行提取(stride = 1)。为了保证size一致,通过平均池化将2×22\times 23×33\times 3调整为1×11\times 1,多尺度block主要是提升多尺度变化的鲁棒性。与图像级多尺度不同的是,特征级多尺度可以减少计算量和特征共享。
结论:算法实现了当时partial行人重识别的SOTA,而且特征重构可以实现特征共享和减少计算量。但逐步优化的过程总给人不是end-to-end的感觉。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章