Human Parsing人体解析多篇论文简读

Macro-Micro Adversarial Network for Human Parsing(ECCV2018)

摘要:在人体解析中,pixel-wise分类loss在低级局部不一致和高级语义不一致上有不足。引入带有一个判别器的生成式网络来解决这两个不一致。但是,这两种不一致是由不同机制产生的,所以一个判别器不能解决两个不一致。所以提出Macro-Micro对抗网络,俩判别器。同时,避免了对抗网络处理高分辨率图像时的poor convergence问题。

Introduction:pixel-wise loss有两个缺点:1.产生局部不一致,比如空洞或模糊,因为它仅处罚每个像素上的错误预测,而不考虑邻接像素间的关系。2.产生语义不一致,比如不合理的pose或不正确的部件间空间关系,产生于深层,只注意局部区域,学习的模型对于部件的拓扑关系没有整体认识,以致于大范围的依赖关系不能捕捉。

为了解决不一致,--->CRFs,作为后处理的方式,(缺:因为pairwise potentials,CRFs通常处理小范围的局部的不一致,甚至有可能生成错误的label maps)

----->adversarial network,(优:adversarial loss通过多个lable变量的joint configuration评估一个label map为真或假,可以产生高级的一致,不用成对项或逐像素分类Loss)(缺:1.两个不一致1个判别器;2.单个判别器监督全局一致性,注意overall high-resolution Image。生成器很难骗过判别器。导致单个判别器反向传播大的Loss,训练不平衡,也就是poor convergence)

Related works:

human parsing.人体解析取得进步的原因1.大规模数据集,2.端到端的训练模型。

Conditional random fields.CRFs在输出的lable maps上执行spatial contiguity,作为后处理,进一步细化输出。因pair-wise potentials,只能处理小范围的低级一致性。高级难设计。总之,CNN上上下文信息的利用依然是很Open的问题

 

Understanding Humans in Crowded Scenes: Deep Nested Adversarial Learning and A New Benchmark for Multi-Human Parsing(2018)

Introduction:之前的工作人体解析工作要么只考虑粗糙信息,要么对不同实例agnostic。在真实世界中,更可能的是存在多人,有不同的交互,姿态,遮挡。这就需要实例级人体解析。但是,现有的数据集不适合这个新任务。所以提出MHPv2数据集,多人解析数据集。

还提出了Nested Adversarial network,现有的方法一般依赖分离的阶段(实例定位,人体解析,细化)NAN同时解析类别部件和分类不同的人。

Multiple-Human Parsing in the Wild(2017)

相比於单人解析,现实场景更需要多人解析。虽然多人解析可以通过person detect再解析,但是一般的人体检测器适用于直立的人(simple pose),现实中往往存在亲密接触或者人间遮挡等。而且,虽然实例分割考虑了多人,但是只能给出人体的轮廓,米有细节子类,不满足人体解析的需求。考虑了这些提出MHP数据集和MH-Parser方法。

top-down,detector实例and parsing,这种方法严重依赖detector,当实例紧密就Poor performance了

down-up,embeddings of all pixels.。所以提出embedding super Pixels。进一步用Graph-GAN学习高层信息,细化embedding

通常的GAN是基于2D图像的学习,首次提出图结构学习。

 

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章