【人脸属性分类】Deep Multi-task Multi-label CNN for Effective Facial Attribute Classification(FAC)

论文链接:https://arxiv.org/abs/2002.03683

动机

1)人脸检测,人脸对齐和FAC(Facial Attribute Classification)问题都是被独立研究,没有探索过这三类问题的关系;

2)人脸属性预测都是使用的相同的网络结构,但人脸属性的学习复杂度是不一样的;

针对以上的两点问题,作者提出了一个多任务多标签CNN,DMM-CNN(deep multi-task multi-label CNN);DMM-CNN将人脸关键点和人脸属性分类联系起来,同时作者将人脸属性分为两组:客观(objective)属性和主观(subjective)属性。

该篇论文的贡献

  1. 作者将人脸关键点的学习复杂度划分为客观关键点和主观关键点;使用两个不同级别的SPP(Spatial Pyramid Pooling)层(1-level SPP层和3-level SPP layer)用于提取特征。
  2. 一个新的动态加权计划(利用验证集loss的比例)给人脸属性自动赋予权值,使得学习处理集中在困难的人脸属性样本上;
  3. 提出一个自适应的阈值策略;该策略考虑到各个属性样本不均衡性,减少了类别不均衡带来的问题;

详细方法细节

Overview

作者使用了resnet50进行特征提取,同时提取人脸关键点和人脸属性的特征;

作者使用了两个不同的空间金字塔池化(SPP)层,提取不同的语言信息,用于主观属性和客观属性分类;

CNN Architecture

1)Objective Attributes and Subjective Attributes

作者认为主观属性通常以一种微妙的形式,使得CNN难以学的决策边缘,如微笑,年轻这些主观属性,客观属性如戴帽子,戴眼镜;客观属性学习作者使用了1-level SPP层和两个全连接层分别输出1024和22个维度的特征;学习主观属性使用3-level SPP层和三个全连接层,输出特征分别是2048维,1024维,18维(网络设计为主观属性编码了高维语义信息(该信息更有利于主观属性);)

2)The SPP Layer

SPPlayer可以产生固定长度的输出,无论输入尺寸怎样,有效避免了裁剪输入图片;使用SPP后,可以输入任意尺寸的脸部图片;

3)Facial Landmark Detection(FLD)

人脸属性分类是主要任务,而关键点分类是辅助任务,同时标注的关键点增添至72个。

4)Training

为了处理不同人脸属性,作者提出了动态权值计划,自动给不同的属性赋予权值;同时为了减少样本不均衡问题,作者使用了自适应的阈值策略预测多种属性标签;

文中,作者使用了均方误差(MSE)loss;

a. 人脸关键点检测(FLD):MSE在人脸关键点上的形式

 

N:训练图片的总数量, 预测的人脸关键点, 真实标注的人脸关键点;

b.人脸属性分类:MSE loss在FAC上形式:

分别代表了预测属性结果和标签结果,第i张图片的第j类属性;

 

c.联合loss函数:联合loss函数分别是包括人脸属性分类和人脸关键点检测:

是人脸属性总数,  代表在第t次迭代中第j个人脸属性的权值向量。是回归参数,设置为0.5.

 

d.动态加权计划(具体可查看本文参考文献【31】)。

就是验证loss(基于公式2计算)。

 

训练特点:在训练初始化时,容易分类的属性基于较大的权值,以便MSE loss可以快速下降;在最后的训练阶段,网络主要训练难以分类的属性。

e.自适应阈值策略。作者预测第j个人脸属性基于网络结构的最终输出

是阈值参数,为了解决样本不均衡带来的影响,作者提出的自适应阈值策略:

是第t轮迭代的阈值;代表了验证集样本数量; 分别代表了在t轮迭代中假阳例和假阴例的数量;就是固定阈值设置为0.01,DMM-CNN算法总结如算法1, 代表当前的epoch数;

试验:

1、Datasets and Parameter Settings

CelebA和LFWA数据集

2、Ablation Study

作者提出的方法DMM-CNN,基线网络使用resNet50提取特征和属性分类;

DMM-FAC代表只使用属性分类,而不使用人脸人脸关键点辅助功能;

DMM-EQ-FIX代表使用了相同的权值的各个属性,不使用动态的加权计划,使用固定阈值去预测每一类属性;

DMM-DW-FIX代表使用动态加权,但是固定阈值;

DMM-SPP代表使用3-level SPP层和全连接层去预测所有属性(使用相同的网络结构用于主观属性分支),属性也不进行分组;详细结果为表1:

测试结果如图3:

 

结论:

1)和基线相比,所有的变体都获得了更好的结果(特别是:ArchedEyebrowns,Big Lips,Narrow Eyes)该结论强调了人脸属性分类任务需要特别处理;

2)比较DMM-FAC和DMM-CNN,说明探索FAC和FLD之间的关系有助于提升FAC的性能;3)DMM-DW-FIX与DMM-EQ-FIX相比,前者获得了更好的性能,说明动态加权的重要性;

4)通过比较DMM-EQ-AT和DMM-EQ-FIX,,展示了自适应阈值策略的重要性;

5)DMM-SPP和DMM-CNN相比,DMM-CNN获得了更好的效果,展示了设计不同的网络结构对于不同的学习复杂度人脸属性有益,帮助提升FAC的结果;

7)DMM-CNN获得了最佳的效果,说明针对不同的学习难度的人脸属性,DMM-CNN有效提升了多标签多类别任务的性能;

作者还比较了四种最具代表性加权计划:1)统一的加权计划,所有属性权值都设置为1,2)动态加权平均(DWA)计划(在参考文献【30】中提出),在训练集合中loss权值变化用于自动的权值学习;3)自适应加权(AW)计划(在参考文献【38】中提出),验证loss和平均验证loss用于获得权值;4)提出了动态加权计划(DW),基于所有验证集中验证loss值得比例;表2给出了实验结果:

结论:通过表中的结果,可以看出作者的方法获得了最佳的效果;

图5比较动态加权计划(DW)和固定动态加权计划(FIX)的验证集loss;

结论:图5中,作者观察了平均验证loss和两个最具代表性的属性loss(“mouseopen”和“young” )。比较动态加权计划和固定加权计划(权值设定为1)的曲线,可以得知动态加权loss下降比较快。同时客观属性(“mouseopen”)收敛速度快于主观属性;说明动态加权计划对于不同学习复杂度多标签任务具有重要的作用;

图6查看了动态权值的变化:

结论:图6中可以看到两个属性的动态权值不太稳定,主要是因为在训练过程中加权主要依据属性损失的变化。在训练过程中,当loss下降数值较大时,赋予的权值将比较大,因为学习过程中属性没有拟合。动态权值反映了不同属性的学习率;但是两个属性的loss都在下降,而且拟合比较稳定(图5)

图7反应训练过程中自适应阈值的变化

结论,通过曲线可以得知作者提出的自适应阈值,随着迭代的变化,属性阈值变化非常稳定;

3、Comparison with State-of-the-art FAC Methods

结论:

  1. 在celebA数据集上,作者方法优于PANDA,LNets+ANet,MOON,NSA,MCNN-AUX,MCFA,同时作者只分了两组进行训练,少于MCNN-AUX的九组,作者认为使用文中的分组机制和人脸关键点是有效的;与AW-CNN效果相似;
  2. 在LFWA数据集上,作者的方法与MCNN-AUX相比,效果差不多;比GNAS效果好,而且GNAS特别耗时;
  3. 作者提出的方法比PS-MCNN-LC效果差,但是PS-MCNN-LC方法需要人脸身份信息,而且在SNet和TSNet中通道数的选择非常苛刻,容易影响最终的性能;

看此篇论文的疑问:

1、SPP很耗时间?

2、都是客观属性(如:戴帽子,戴口罩)又当怎么处理;

3、人脸关键点检测单独在某类属性中使用又对模型有什么帮助; 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章