[論文閱讀筆記] Adversarial Examples Are Not Bugs, They Are Features

Adversarial Examples Are Not Bugs, They Are Features(CVPR 2019)

文章核心:
作者認爲,對抗性樣本的存在不是網絡架構的問題,而是數據集的一個屬性。(nonrobust featurenon-robust\, feature)
Adversarial vulnerability is a direct result of our models’ sensitivity to well-generalizing features in the data.(對抗脆弱性是模型對數據中泛化較好的特徵具備敏感性的直接結果。)
主要做法:
他分別構建了2種圖像的特徵:robustnon-robust

  • robust: 作者採用的一個方法,儘量把原圖中的non-robust特徵移除,以獲得robust特徵。具體做法是,創建一個與原始數據集語義相似的訓練數據集,在其上進行標準訓練後,模型可在原始未修改測試集上獲得穩健的準確率。
  • non-robust: 作者構建了一個數據集,其中圖片與原始圖片基本接近,但標籤都是錯誤的(也可以認爲就是對抗樣本)。事實上,新訓練數據集中的輸入與其標籤之間的關聯僅通過微小的對抗擾動來維繫(從而僅利用非穩健特徵)。儘管缺乏有預測性的人類可見信息,但在該數據集上訓練後,模型可在原始未修改測試集上獲得不錯的準確率。(即如果用這些樣本去訓練,假如該樣本人眼認爲是狗,但其對應標籤爲貓,訓練好後再拿這個網絡去識別貓,卻能達到比較好的準確度。)

接下來考慮一個二分類問題,即y{1,1}y \in \{-1, 1\}(當然對對分類也是可以的),作者把特徵分爲以下3類:

  • ρuseful features\rho-useful\,features:

    其中ρ>0\rho>0
  • γrobustly useful features\gamma-robustly\,useful\,features:

    其中δ\delta表示細微擾動, γ>0\gamma>0
  • Useful,nonrobustfeaturesUseful,non-robust features:
    該特徵滿足ρ&gt;0\rho &gt; 0但是對任意γ&gt;=0\gamma&gt;=0,該特徵不屬於γrobustly&ThinSpace;useful&ThinSpace;features\gamma-robustly\,useful\,features在對抗樣本中,Useful,nonrobustfeaturesUseful,non-robust features就會是那個與True label負相關的特徵,網絡模型通過nonrobustnon-robust特徵來進行決策!!!<
    從下圖中可以看出,在DRD_R分佈中進行訓練,雖然在測試集上的準確率會稍許下降,但是整體上對對抗樣本的防禦上性能還是比較不錯的(雖然仍舊不如通過對抗樣本訓練的模型,但已經比原始分佈DD上訓練的相比,防禦力大大提升了)。此外,在DNRD_{NR}分佈中進行訓練,仍然能夠在測試集上取得不錯的結果,但很難抵禦攻擊。robustrobust特徵在訓練集上提供了強有力的預測能力,但是代價就是會損傷泛化能力。

此外,作者還發現不同架構的網絡的Transfer rate與該網絡的Test accuracy正相關,作者認爲,在Test上性能越優越的網絡可能利用了更多的non-robust特徵,從而才提高了泛化能力。

Futher Reading:
A Theoretical Framework for Studying (Non)-Robust Features未看懂


由於這些筆記是之前整理的,所以可能會參考其他博文的見解,如果引用了您的文章的內容請告知我,我將把引用出處加上~
如果覺得我有地方講的不好的或者有錯誤的歡迎給我留言,謝謝大家閱讀(
點個贊我可是會很開心的哦)~

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章