Pose-guided Visible Part Matching for Occluded Person ReID阅读笔记

Paper：https://arxiv.org/abs/2004.00230

前言：本人阅读的第二篇CVPR 2020关于ReID的论文。主要解决了遮挡行人重识别的问题，其中涉及了姿态估计、

摘要：遮挡行人重识别是一项具有挑战性的任务，特别是在密集场景中，被遮挡者的外观会随着遮挡物体的不同而发生显著的变化。为了解决此问题，本文提出了姿态引导的可见部件匹配(PVPM)方法，该方法联合姿态引导的注意力和自我挖掘部件的可见性在端到端的框架中学习显著的特征。具体来说，PVPM包括两个关键组成部分，1，姿态引导注意力方法(PGA)通过汇合局部特征以利用更多的显著性的局部特征；2，姿态引导可见性预测器(PVP)原来估计某一部件是否存在遮挡。由于被遮挡部分没有精标准的标注，本文转而利用正样本对的部件相关性的特性和通过图匹配自挖掘相关性分数。然后将相关性分数作为可见性预测器的假定标签。实验证明了有效性和SOTA。

知识点解析：

遮挡行人重识别的两大挑战。1，对于传统的基于完整图像监督的行人重识别不仅涉及目标行人的信息还包括遮挡的干扰。不同的遮挡，如颜色，位置和大小等，增加了获得目标行人健壮特征的难度；2，被遮挡的身体部位有时是更具有显著辨别性的，而未被遮挡的区域则常常有通识性。在本文中提出了姿态引导可见部位匹配(PVPM)网络来直接挖掘可见分数实现自我学习。PVPM主要包括两个关键部分-姿态引导局部注意力网络(PGA)和姿态引导可见性预测器(PVP)。PVP的训练由伪标签来监督，伪标签的通过图匹配解决特征配对问题而得到的。最后，通过可见性分数加权身体部位的距离总和来计算最终的得分。本文创先点总结如下：1，本文提出了姿态引导的可见性部位匹配方法，在端到端的框架中联合姿态引导注意力网络和部位可见性预测器来学习显著辨别的特征。2，本文以自监督的方式训练可见性预测模型，其中伪标签的生成过程是一个可以由图匹配解决的特征对应问题。3，在多个遮挡数据集上展现了性能的优越性。

Pose-Guide Visible Part Matching：本文中，提出了姿态引导的可见部位匹配框架，该框架将局部特征与可见分数结合已解决遮挡行人重识别任务的不匹配问题。整个框架包括姿态编码器(PE)、姿态引导注意力掩码生成器(PGA)、姿态引导可见分数预测器(PVP)和一种生成用于PVP训练伪标签的特征相关性模型。

Part Features with Pose-Guide Attention：具有显著辨别性的局部特征在遮挡行人重识别中很重要，这也激发本文将外观特征和姿态引导注意力图的融合以获得肢体的局部特征。姿态引导注意力机制包括三个部分--姿态估计、姿态编码器和局部关注生成器。首先，利用姿态估计得到关键点热度图K和部件关联区域 $L_{p}$ ；然后姿态编码器以 $P = K \bigoplus L_{p}$ 作为输入，再将姿态信息嵌入到高级姿态特征 $F_{pose}$ ；对关注特定身体部位的局部关注生成器，即1*1的卷积层和Sigmoid函数作用于 $F_{pose}$ ，生成一堆2维的特征图A，A中的每一个元素 $a_{i}^{h,w}$ 表示特征图F中(h， w)位置上第i个局部的值。

为了使组合的特征表示更加健壮和鲁邦，本文使网络聚焦在不重叠的区域，这样每个部分可以提取互补的特征。因此本文只保留每个局部最大的激活值，公式如下：

这样，局部i-th的特征图 $f_{i}$ 可以下式计算得到：

Pose-Guide Visibility Prediction：在得到局部特征的行人表示后，计算距离的一种直观方法是部位之间的距离之和。因此，合理的方法是只建立同时可见部分之间的对应关系，并计算相应间的距离。其中PVP网络包括GAP池化层、1*1卷积层、BN层和Sigmiod激活层。输入是姿态特征图 $F_{pose}$ ：

测试阶段计算公式为：

Pseudo-Label Estimation by Graph Matching：

图像里的部位可见性是没有标注信息的，因此才需要自动展示其可见性。对于一对正样本图像，1，对应可见的部位具有高相关性；2，对应可见部位的之间的连线具有高相关性。具体地，将某一图像的局部特征表示成node，相关性表示成edge。对于一对正样本图像，对应样本i-th相关则为1，否则为0。edge和node的关系相似度值表示为关联矩阵M，其中相似性值利用内积计算得到。具体来说，M的对角线表示两个node的相似性，