计算机视觉之对抗样本(一):一文读懂Rethinking softmax cross entropy loss for adversarial robustness(ICLR2020)和MMC

Rethinking softmax cross entropy loss for adversarial robustness是一篇关于对抗样本的Paper,详见arXivGithub

摘要:

       先前的工作表明,对抗鲁棒性泛化需要更大的样本复杂度(arXiv)。这使得在相同的数据集(例如CIFAR-10)上,仅用准确率指标不足以训练鲁棒的模型。由于收集新的训练数据会付出高昂的代价,因此通过在特征空间中引入具有高样本密度的区域来更好地利用给定的数据,使有足够的样本进行稳健的学习。

       首先,softmax交叉熵损失(SCE)及其变体传达了不合适的监督信号,这鼓励了学习的特征点在训练中稀疏地散布在整个空间中。这启发我们提出最大化马氏距离(Max-Mahalanobis)中心损失(MMC),以明确诱发密集的特征区域,从而提高鲁棒性。即MMC损失促使模型集中于学习有序和紧凑表示,这些表示围绕针对不同类别的预设最佳中心聚集。我们证明,即使在强大的自适应攻击下,应用MMC损失也可以显着提高鲁棒性,同时与SCE损失相比,只需很少的额外计算即可保持干净输入的最新精度。

MMC最大化马氏距离中心

       马氏距离(Mahalanobis distance)表示点与一个分布之间的距离。它是一种有效的计算两个未知样本集的相似度的方法。与欧氏距离不同的是,它考虑到各种特性之间的联系(例如:一条关于身高的信息会带来一条关于体重的信息,因为两者是有关联的),并且是尺度无关的(scale-invariant),即独立于测量尺度。对于一个均值为μ,协方差矩阵为Σ的多变量向量,其马氏距离为sqrt( (x-μ)'Σ^(-1)(x-μ) )。-百度百科

单个数据点的马氏距离

数据点x, y之间的马氏距离

其中Σ是多维随机变量的协方差矩阵,μ为样本均值,马氏距离理解及推导见知乎

       欧式距离就好比一个参照值,它表征的是当所有类别等概率出现的情况下类别之间的距离。此时决策面中心点的位置就是两个类别中心的连线的中点。如图1所示,而当类别先验概率并不相等时,如果仍然用中垂线作为决策线是不合理的,将出现判别错误(绿色类的点被判别为红色类),假设图1中绿色类别的先验概率变大,那么决策线将左移,如图2黄线。左移的具体位置,就是通过马氏距离计算而来。马氏距离引入的协方差参数,表征的是点的稀密程度。-百度文库

       引入生成对抗网络的思想:图像皆分布。每一张图片在计算机眼中就是一个像素矩阵,因此将所有的图片代表的矩阵合在一起,就形成了一个巨大的矩阵空间(如上图所示,里面每一个点代表一个矩阵(也就是一张图片))。在这个空间当中,如果把所有“狗”的图片找出来,会发现它们聚集在矩阵空间当中的某一片区域,这个区域就代表了“狗”的图像对应的分布。同理,其他所有类型的图像(如猫,车,人等)都会满足这样的特性。因此这就是图像皆分布的意思。 -G-Lab

       那么对抗样本的存在空间可以看作为两个分布的重叠区域,例如红色圆与绿色圆相交区域。马氏距离的决策曲线不仅取决于特征之间的距离,而且还关注样本点的稀密程度,可以更好的将猫的分布判别出来。

       马氏距离与欧氏距离的唯一区别是它认为空间是各向异性的。各向异性的具体参数,是由一个协方差矩阵表示的。把这个协方差矩阵考虑成一个多维正态分布的协方差阵,则这个分布的密度函数的等高线,就是个椭圆。-百度文库

Max-Mahalanobis center

       在这里使用马氏距离损失替换softmax交叉熵损失,替换原因是softmax只依赖于逻辑关系,使学习到的特征在空间上有稀疏分布的趋势,不能直接监督学习表征,而Mahalanobis可以更好地学习到样本地特征。

      预先设定不可训练类中心,然后最小化与中心损失相似度以诱导向中心聚集,再通过马氏距离损失显式控制类间离散度,在训练过程中进一步提高类间紧致度,诱导出高密集区域的样本集进行训练,类似于难例挖掘

实验

由于个人水平有限,文中如有错误还请斧正。

文章仅限于学习交流,部分参考已给出,如有侵权请及时联系。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章