[論文閱讀筆記]SEMANTIC ADVERSARIAL ATTACKS: PARAMETRIC TRANSFORMATIONS THAT FOOL DEEP CLASSIFIERS(ICCV)

SEMANTIC ADVERSARIAL ATTACKS: PARAMETRIC TRANSFORMATIONS THAT FOOL DEEP CLASSIFIERS(2019 ICCV)

文章簡介:
本文的出發點不同於以前的方法(例如修改某幾個像素點或者在原圖上添加擾動),本文的對抗樣本是通過修改輸入圖像中某些特殊的特徵(例如戴上眼鏡),從而產生語義自然的圖片的同時,還能愚弄分類器。

  • 類型:white-box攻擊,需要知道模型的梯度信息
  • DataSet: CelebA數據集,攻擊的模型是男女分類模型
  • Method:Fader Networks和AttGAN(基於GAN的semantic Attack,該方法使用的是nonlinear變換方法)
  • Obstacle:一個關鍵的障礙是,與語義屬性相關的參數通常很難解耦。

Contribution:

  • 提出一種新的基於優化的框架,利用parametric generative transformations來生成有效的語義對抗樣本
  • 使用muti-attribute模型的變體(Fader Network和Attribute GAN)來生成人臉對抗樣本來攻擊男女二分類模型
  • 我們對我們的方法進行了實證分析,結果表明,增加攻擊空間的維數會導致更有效的攻擊。此外,我們研究了一系列nonlinear的攻擊,並證明了較高的nonlinear程度會導致較弱的攻擊。
  • 對目標模型在對抗樣本的抵禦能力上進行上界分析

Parametric Transformation Models(GG):
GG訓練的目標是分解語義特徵的同時還能重建原始樣本,它需要滿足兩個性質:

  • G能夠重建圖像中的不變數據
  • G應該能夠獨立地擾亂語義屬性,同時儘可能少地更改不變的數據。

作者提出的semantic attack可以應用於任何支持梯度計算的Parametric Transformation Models,不過最後作者選擇了最近提出的兩個生成模型:Fader networksAttGAN

Adversarial Parameter Optimiziation:
生成語義對抗樣本的問題本質上可以看作是找到分類器易受對抗性影響的屬性集(set of attributes)。該優化問題可以分解爲2個子問題:

  • first step: 優化目標網絡的adversarial loss來尋找對抗擾動的direction
  • seconde step: 將adversarial vector投影到solution-sapce(解空間)

作者修改了CW untargeted adversarial loss來包含作者想要的語義約束

其算法流程爲

Adbersarial Fader Network:
Fader網絡是一種encoder-decoder體系結構,用於修改具有連續參數化屬性的圖像。該網絡在分解圖像語義信息的同時還能學習encoded latent representation中的不變性。在實際操作過程中,作者採用3種方式來生成semantic adversarial examples:

  • A single attribute Fader Network: 該方法只修改所有圖片中的某個特定的屬性,針對本文的人臉,修改的屬性可能會是添加眼鏡、頭髮顏色等等。下圖是模型的示意圖:
  • Multi-Attribute Attack: 與single類似,只是在預訓練的時候模型可以接觸到更多可修改的屬性,不過該方法有侷限性,這是因爲Fader Network需要去學習分離的屬性,而在實踐中,語義屬性不能完全解耦。
  • Cascaded Attribute Attack:具體細節論文沒有提及(We propose a novel method to simulate multi-attribute attacks by stage-wise concatenation
    pre-trained single attribute Fader networks.),但是其缺點就是重建質量比較低。

Adversarial AttGAN:
與Fader Network類似,不同之處在於AttGAN在訓練過程中同時考慮了原始標籤和翻轉標籤,將語義屬性從數據的underlying invariances中分離出來。在實驗過程中,AttGAN提供了更加穩定的重建效果。其結構如下圖:

AttGAN的生成效果:
相比於Fader Network,AttGAN生成的圖片更加清晰

domain:
對於下面通過severe artifacts(不知道如何理解這個名詞)(可能是比較粗糙的意思吧)生成的圖片,訓練好的模型依然能夠正確分類,這就說明神經網絡對semantic domain上的改變有一定的魯棒性。而在pixel domain則沒那麼魯棒(因爲改變幾個像素點就能讓模型誤分類了)


如果覺得我有地方講的不好的或者有錯誤的歡迎給我留言,謝謝大家閱讀(點個贊我可是會很開心的哦)~

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章