半监督+无监督的噪声标签问题建模文章简读

目录

1 On Non-Random Missing Labels in Semi-Supervised Learning (ICLR 2022)

2 Multi-Objective Interpolation Training for Robustness to Label Noise (CVPR 2021)

3 Learning from Web Data with Self-Organizing Memory Module (CVPR 2020)

4 Deep Self-Learning From Noisy Labels (ICCV 2019)

5 CleanNet: Transfer Learning for Scalable Image Classifier Training with Label Noise (CVPR 2018)

 

 


1 On Non-Random Missing Labels in Semi-Supervised Learning (ICLR 2022)

论文链接

代码

动机:

①   现有的半监督学习模型一般是首先采用有标记的数据对模型训练,然后采用模型对未标记数据预测得到伪标签,最后联合标记数据和伪标记数据进一步改进模型的性能。

②   与此同时,半监督学习从根本上讲可以认为是一个标签缺失问题,其中标签非随机缺失(MNAR)问题与现有的基于MCAR问题相比,MNAR问题更具有现实意义和挑战性,并且其服从有标签和无标签数据共享同一类分布的随机假设。

③   此外,现有的半监督学习方法忽略了“类“在造成非随机性方面的误差。例如,用户更有可能给一些流行的类别贴上标签,导致类别不平衡问题加剧。

贡献:

1)      提出了一种倾向标注数据的类别感知模块(Class-Aware Propensity for Labeled Data),利用标注信息对分类模型进行训练,并通过整体数据分布来获取每个类别的判别概率分布信息;

2)      提出了一种用于无标注数据标签填补的类别感知模块(Class-Aware Imputation for Unlabeled Data),通过模型给每个类别设定动态的阈值,获取对应类别无标注数据的伪标签;

3)      利用双向鲁棒估计器,优雅地讲1)和2)模块结合起来,并添加了一个L_supp补充损失函数,用于半监督学习建模。

我的想法:

本文整体创新和NIPS2021的FlexMatch核心创新比较类似,NIPS2021从课程学习的角度来讨论半监督学习建模,而本文则从数据的MNAR缺失角度来讨论半监督学习,并且重点分析了类别不平衡的问题,即本文提出的模型在类别不平衡问题上的建模效果更好。

对于本文的类别感知设计思想可以考虑在时间序列数据分类上运用看看。(本文评分:8,6,6)

 


2 Multi-Objective Interpolation Training for Robustness to Label Noise (CVPR 2021)

论文链接

代码

动机:

  采用标准交叉熵损耗训练的深度神经网络能够记忆噪声标签,从而降低其性能。为了减少这种记忆,大多数研究都提出了新的鲁棒分类损失函数。

  然而,以前的大多数方法只依赖于分类损失,很少有工作将相似度学习框架结合起来,即直接学习图像表示,而不是通过标签类别辅助表示学习。

  在标签噪声的背景下,有一些工作尝试用简单的相似学习损失进行训练,但据我们所知,还没有研究采用最近的对比学习损失的工作。

贡献:

提出了一种多目标插值训练(MOIT)方法,该方法联合利用对比学习和半监督分类相互协作的关系,提高模型对标签噪声的鲁棒性。

      具体地:

①   提出一种多目标插值训练(MOIT)框架,其中有监督对比学习和半监督学习相互帮助,在单一超参数配置下,合成和网络标签噪声都存在。

②   提出一种插值对比学习(ICL)损失,它对输入和对比学习损失施加线性关系,以减轻在监督对比学习损耗中导致模型的性能退化问题。

③   提出一种基于K近邻搜索的标签噪声检测策略,能够依据ICL损失学习的鲁棒性特征表示推断每个样本的标签分布。

④   结合干净数据提出了一种预训练微调策略(MOIT+),能够进一步提到含噪声标签的模型鲁棒性。

我的想法:

   MOIT的核心思想是将监督对比学习和分类结合起来,使它们对噪声的标注都具有鲁棒性。插值对比学习正则化可以学习标签噪声鲁棒表示,用于估计与原始标签一致的软标签分布(MixUp),从而可以识别正确标记的样本。

 

 


3 Learning from Web Data with Self-Organizing Memory Module (CVPR 2020)

论文链接

代码:暂无

动机:

近年来,从网络数据中学习吸引了大量的研究兴趣。然而,爬行的网络图像通常含有两类噪声,即标签噪声和背景噪声,这给有效利用这些噪声带来了额外的困难。现有的方法要么依赖于人的监督,要么忽略背景噪声。

贡献:

提出了一种基于自组织记忆模块的方法,在不需要人工标注的情况下,可以同时处理标签噪声和背景噪声。

    具体地:

①   在多实例学习框架下使用内存模块处理web数据的标签/背景噪声,采用类似K-means的聚类模块来实现该功能。

②   提出了自组织记忆模块来稳定训练过程和结果,将聚类模块和分类过程联合一起,形成一个端到到的模型。

我的想法:

本文采用当前特征表示与最近的簇以及最远的簇分数相乘的结果,来表示类原型的分数,从而参与分类过程。也就是说,类原型分数越高,越有可能是干净标签。最后,本文选取权重分数的前10%作为干净标注进行问题建模。

    在靠近最近的类中心的同时,加强与其它类别之间的差异和距离。这个思想可以划分为两个不同的损失函数。

     在图像ROI领域,本文依据聚类模块选取的前10%伪标签,对训练的预测结果添加阈值进行交叉熵训练,这样的过程到时可以实验分析看看。

 


4 Deep Self-Learning From Noisy Labels (ICCV 2019)

论文链接

代码

动机:

当从干净的数据中进行训练时,卷积神经网络可以获得良好的效果,但是从嘈杂的标签中进行学习会显著降低性能,并且仍然具有挑战性。

贡献:

  提出了一种新的深度自学习框架,在没有额外监督的情况下,在真实的有噪声数据集上训练鲁棒网络。

  1)提出了一个迭代学习框架SMP( Self-Learning with Multi-Prototypes)来重新标记有噪声的样本,并在真正有噪声的数据集上训练卷积神经网络,而不使用额外的干净监督。

   2)SMP对于从噪声数据中学习产生了有趣的发现。例如,与已有工作不同,我们表明单个原型可能不足以表示一个含有噪声标注的类。通过为一个类别提取多个原型,我们证明了越多的原型就能更好地表示一个类别,并获得更好的标签校正结果。

我的想法:

  本文的动机中,对于同一类采用两个类原型来确定不同类别分布间的边界。即两个类别间的边界采用曲线比直接采用一刀切的直线要更好。

  在本文中,作者们提出了一种迭代的自学习框架工作,用于在真实的有噪声数据集上进行学习,并证明了单一原型不足以表示类的分布,而多原型是必要的。

 


5 CleanNet: Transfer Learning for Scalable Image Classifier Training with Label Noise (CVPR 2018)

CleanNet:

Github:

CurriculumNet

Github

动机:

在图像分类模型中包含标签噪声的的学习问题中,现有依赖于人的监督的方法通常是不能扩展的,因为人工识别正确或错误的标签是耗时的,而不依赖于人的监督的方法是可扩展的,但效果较差。

贡献:

为了减少人工监督标签噪声清洗的工作量,我们引入了一种联合神经嵌入网络CleanNet,它只需要人工验证部分类来提供标签噪声的知识,可以转移到其他类。

具体贡献如下:

(1)引入了“标签清洁网络”(Clean-Net),这是为这种设置设计的一种新颖的神经结构。首先,我们开发了一个参考集编码器,它采用了注意机制,将一个类的参考图像集编码为一个表示该类的嵌入向量。

(2)在参考集嵌入的同时,我们还为每一幅图像构建了一个查询嵌入向量,并在训练中施加一个匹配约束,要求查询嵌入与类嵌入相似,如果查询与类相关的话。

CurriculumNet (CVPR2018) 很自然地认为,一组标签正确的干净图像往往具有相对相似的视觉外观,并且这些图像相互之间的投影非常紧密,导致局部密度值很大。

课程学习:一种依赖于直觉的学习策略——任务按照难度的增加进行排序,训练是按照从简单任务到困难任务的顺序进行的。

我的想法:

采用聚类选择干净样本时,最好讨论分析一下欧式距离、余弦相似度和DTW距离的优劣。

ECCV2018提到一个自然的直觉:干净的标签其特征分布更加精密,类似小损失准则。

距离类簇中心越近的点,其标注正确的概率就越大。

此外,ECCV2018还发现,最后添加的高噪声数据,并不会对模型的性能造成很大影响,反而会提高模型的泛化性。

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章