弱监督语义分割算法|AE-PSL算法对抗性擦除最具有判别性区域

弱监督语义分割算法|AE-PSL算法对抗性擦除最具有判别性区域

这是一篇有趣的弱监督语义分割算法,最有趣的在什么地方呢?它通过将图片中最重要的、最具有判别性的部分擦除了,从而来得到次判别性区域,不明白他为什么会舍弃最好的而求其次吧?其实只是因为具有判别性的区域的存在遮盖住了其他的地方,而我们需要的是完整的物体区域,所以先委屈他被舍弃一小会,而帮助我们得到完整的区域啦!

论文:Object Region Mining with Adversarial Erasing: A Simple Classification to Semantic Segmentation Approach

会议:CVPR,2018

研究任务:弱监督语义分割,利用仅有图片类别标签训练像素级分割模型

语义分割简单介绍

CAM方法:利用classification networks进行物体定位,找到每一类别物体的部分位置,称之为seed regions。

具体方法如下图,详细介绍参照之前文章CAM详解

通过分类网络,可以看到,网络确实具有定位功能,但是定位的都是物体最具有判别性的区域,像动物的头部等,如下图。

问题:

classification networks往往仅关注物体中最具有判别性的区域,像物体头部,因此用CAM方法生成的seed regions虽然位置准确但往往小并且稀疏,不能直接作为监督训练全监督语义分割模型。那我们如何可以获得比较完整的物体区域呢?

方法:

这篇文章提出一个对抗性擦除最具有判别性的区域的方法,找到整个object Region.

具体地,如下图,有一张狗的图片,将它送到Classification Network中,通过CAM的方法,会找到最具有判别性的头部区域,然后将狗的头部区域擦除再放入网络,网络将会找到狗的胸部区域,通过多次操作,最终可以找到狗的完整的区域。

下面的结果表示,对抗性擦除操作的确具有较好的结果

这里有一个问题,就是这样的擦除操作需要迭代几次,便可以获得不错的结果?

看上面的图片,左图可以看出最好的结果是执行三步时,结果最好。右边是训练loss图片,可以看到当从第三步跳到第四步时,loss有一个比较大的跳跃,所以实验证明,选择三次比较好。

从上面的图片中也可以看出,当执行擦除操作过多时,图片中已经找不到物体的区域,网络就会出背景中找具有判别性物体的区域,带来不好的结果。

完整网络结构:

基于VGG16训练图像的分类网络,将最后两个全连接层替换为卷积层,CAM被用来定位标签相关区域。

对于一张图片,将其输进网络,通过CAM的方法对物体进行定位,得到图片中最具有判别性的区域位置,狗的头部,设置一个阈值提取出这个region,然后通过相减的方式,将狗的头部擦去。最后将擦去头部的狗的图片送入网络进行训练,看图片最下面一层,是每次操作得到的的具有判别性的区域。

如何选择阈值以及如何擦除判别性区域?

阈值:在生成的location map(H)中,属于前20%最大值的像素点被擦除。

擦除方式:将对应的像素点的值设置为所有训练集图片的像素的平均值。

如何生成全监督语义分割的监督信息?

我们知道,训练分割网络,不仅需要物体的监督信息还需要背景部分的监督信息,我们来看一下,这篇文章中具体的如何生成全监督语义分割的监督信息的。

前景mask:基于分类网络利用对抗擦除方法获得物体区域,如下图中紫色区域;

背景mask : 利用显著性检测技术生成的显著图生获取图像的背景信息,如下图黑色部分,虽然显著性检测技术对于复杂的图片的分割效果不是很好,但是可以利用它找出不显著的部分作为背景。

不确定区域:下图中蓝色区域表示未指派语义标签的像素,这些像素点不参与训练。

Online prohibitive segmentation learning (PSL)

由于在生成的segmentation mask中包含了一些噪声区域和未被标注的区域,为了更加有效地训练,论文提出了一种PSL(Prohibitive Segmentation Learning)方法训练语义分割网络。

具体方法:对未标注的像素进行利用

该方法引入了一个多标签分类的分支在线预测图像包含各个类别的概率值,其实就是将feature maps执行average pooling得到一个存储概率的向量,这些概率被用来调整语义分割分支中每个像素属于各个类别的概率,并将概率值和feature maps相乘在线生成额外的segmentation mask作为监督信息。和之前生成的mask一起训练分割网络。

由于图像级的多标签分类往往具有较高的准确性,PSL方法可以利用分类信息来抑制分割图中的true negative区域。随着训练的进行,网络的语义分割能力也会越来越强,继而在线生成的segmentation mask的质量也会提升,从而提供更加准确的监督信息。

作用:

方法结果:

这是在VOC2012上的结果

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章