ID-aware Quality for Set-based Person Re-identification论文笔记

1. 摘要

        针对set-based ReID问题,目前主流的一种做法是对set中的单张图像使用CNN提取特征,再对这些特征使用融合算法整合为set的特征表示。但是,质量(作者定义了感知质量和语义质量,perceptually/semantically low quality images)较差的图片和简单图片的过拟合会影响最终的特征表示。因此,Wang等人提出了ID-aware quality,可以同时测量图片的感知和语义质量。在此基础上,提出了ID-aware Embedding (IDE),网络结构如图1所示,该网络结构中比较重要的两个部件分别为Feature Learning Attention和Feature Fusion Attention。Feature Learning Attention (FLA)利用了ID-aware quality挑选出中等难度(medium hard images)的样本进行学习,部件学习到的加权系数用于加权交叉熵损失。Feature Fusion Attention (FFA)根据ID-aware quality给予质量越高的图更大的加权权重。

图 1

2. 实现细节

      文章的两个主要贡献为:(1) 提出了ID-aware quality衡量方法,可以同时衡量感知质量和语义质量;(2) 提出了ID-aware Embedding,根据ID-aware quality计算set-level的特征表示。

      作者首先定义了感知质量和语义质量问题(原文中Figure 1),前者包括图像模糊,后者包括遮挡、人体显示不完全及一幅图中多个人。实现方法如式,即对每张图关于ID做了分类:

s_i=\frac{exp(\mathbf{z}_{i}^{T}\mathbf{c}_{y})}{\sum_{k=1}^{C}exp(\mathbf{z}_{i}^{T}\mathbf{c}_{y})}

     FLA和FFA目的是学习两组加权参数,前者用于Image-level的ID学习,后者用于Set-level的特征融合。数学上的实现方法就是使用了高斯分布公式。FLA中的si满足N(0.5,\sigma_{FLA}^{2}),这样可以更好的挖掘中等难度(ID的分类正确率在0.5左右)的样本,如图2a所示。FFA中的si满足N(1, \sigma_{FFA}^{2}),这样可以让分类性能更好的图像在特征融合时的权重更大,如图2b所示。

(a)
(b)
图2

3. 讨论

     在set image retrival领域,quality-based的经典方法有商汤提出的QAN。本篇论文的作者也与QAN进行了比较。在quality-aware方面,作者说明QAN只能检测感知质量,而本文可以同时衡量感知和语义质量。在IDE方面,文中提出的FFA和FLA的参数均只是前向过程不参与反向传播,在测试时也没有ID-aware的概念,只是采用image-level平均得到set-level embedding,文中提出的网络结构只是学习出一个鲁棒的embedding函数,该函数可以忽略低质量的图片。

     本文的工作在MARS, iLIDS-VID, PRID2011和LPW上测试了CMC-1指标,实验结果如下:

  MARS iLIDS-VID PRID2011 LPW
  mAP CMC-1 CMC-1 CMC-1 CMC-1
QAN -- -- 68.0 90.3 --
ID-aware 71.7 83.3 81.9 93.7 70.9

4. 问题

(1) 为什么这个网络结构可以work?

     从理论上来说,本文学习的度量空间是使同类的set-level特征尽量接近,并且使异类的set-level特征远离。文章提出的一大堆组件,最后只是用来校正训练embedding所用的CNN,在测试的时候并没有起到加权的作用。其实细细去想这篇文章,我觉得作者应该最早做的是image-level reid,然后发现坑挖的差不多了,现在转过来做video reid。因为文中提出的结构很像做image-level问题的解法,类比一下我们在做Metric Learning (MVP)的时候,也只是设计了一个loss,各种难样本加权实际上就是文中提到的”attention”,相关的加权系数也没有经过BP过程。而且文中所谓的ID-aware quality,就是ID分类的softmax结果。Loss也就是ID Loss + Contrastive Loss。

(2) 为什么FLA和FFA所用的分布不同呢?

    因为FLA主要用做的是分类Loss,那么按照作者的说法,不想网络太关注在outliers或者是太简单的样本(trival image)上,而去挖掘medium hard samples。而FFA是用作生成set-level表示,这个时候就希望分类效果较好的图片拥有更高的权重。

(3) 这篇文章效果真的比QAN好吗?

    这篇文章只是在最后列出了在两个数据集上的指标比较,但是从理论上没有跟QAN做很细致的比较。首先,假设文中定义的两个quality是make sense的,那么按照文中说法,QAN只能衡量模糊,其它都不行。但是这个观点是不严谨的(甚至是跟QAN原文的结论矛盾的),因为在QAN文中,Figure 5下面的说明中已经说了,QAN对于光照、变形、重叠/遮挡以及图中出现多个行人时,quality分数较低。(QAN原文中的话: It is easy to find that images with deformity, superposition, blur or extreme light condition tend to obtain lower quality scores than normal images. Especially many of hard images include two or more bodies in the center and we can hardly discriminate which one is the right target).

    而且文中也只是对比了他们方法和QAN的不同,也并没有说明这些不同会带来什么好处。我个人不觉得权重不学习会比学习来的更好,那如果这样的话,各种attention还有啥意义呢。

(4) 这个quality衡量到底有什么具体含义呢?

    感觉文章的出发点是挺有意思的,用ID去约束图片质量。但是其实除了在第一部分里给出了quality的定义外,通篇我没觉得网络结构跟quality有什么特别大的关系。感觉就是开了个很好的头,但是做法一看竟然就是image level ID classification,我觉得文章至少需要在结论部分证明,ID的分类结果就是quality,不然我觉得这个quality的定义更像是在掰故事。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章