[论文阅读笔记]Towards Deep Learning Models Resistant to Adversarial Attacks

原創

2019-07-31 03:55

文章简述：
本文主要是在研究防御的问题，并提出了PGD这种first-order攻击方法，其中增强模型robust的方法有以下两种：

如何训练更加robust的模型？
下面这个公式可以看成一个鞍点的问题，即inner-max和outer-min。

projected gradient descent (PGD):
PGD即muti-step FGSM，且PGD算是非常强的first-order攻击，基本能防御PGD的网络，就可以防御其他任何one-order攻击

解释为什么进行对抗训练后在原test集上准确度反而下降？
其中中间和右边图的框框代表的就是 $L_{\infty}-ball$ ，可以发现，将对抗样本加入训练集中后，模型为了减小整体损失，其决策边界就会更加非线性(原始数据集是线性可分的)，而这就会产生类似于在原数据集上"过拟合"现象。

模型的capacity
可以看到，随着模型的capacity变大，不仅在原始数据集上表现会变好（虽然有限），而且对于(one-step)对抗样本的抵抗能力也会增强。

由于这些笔记是之前整理的，所以可能会参考其他博文的见解，如果引用了您的文章的内容请告知我，我将把引用出处加上~
如果觉得我有地方讲的不好的或者有错误的欢迎给我留言，谢谢大家阅读（点个赞我可是会很开心的哦）~

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.