EXPLAINING AND HARNESSING ADVERSARIAL EXAMPLES

Goodfellow I, Shlens J, Szegedy C, et al. Explaining and Harnessing Adversarial Examples[J]. arXiv: Machine Learning, 2014.

@article{goodfellow2014explaining,
title={Explaining and Harnessing Adversarial Examples},
author={Goodfellow, Ian and Shlens, Jonathon and Szegedy, Christian},
journal={arXiv: Machine Learning},
year={2014}}

Adversarial examples 中FGSM(fast gradient sign method)方法的來源,
x~=x+ϵsign(xJ(θ,x,y)). \tilde{x}=x+ \epsilon \: \mathrm{sign} (\nabla_x J(\theta, x, y)).

主要內容

在圖像中, 像素點的進度是1/255, 所以如果我們在圖像上的攝動小於此精度, 那麼圖像實際上是不會產生任何變化的. 作者首先說明, 即便是線性模型, 在輸入上的微小攝動也能夠引起結果(當維數夠大)的很大變化.

從線性談起

x~=x+η\tilde{x} = x+\eta, 線性攝動如下
wTx~=wTx+wTη, w^T\tilde{x} = w^Tx+w^T\eta,

此時結果的攝動爲wTηw^T\eta, 假設ww的平均值爲mm. 注意到, 在η<ϵ\|\eta\|_{\infty}<\epsilon的條件下, η=ϵsign(w)\eta=\epsilon \: \mathrm{sign}(w)時攝動最大(這也是FGSM的啓發點), 此時攝動爲ϵmn\epsilon mn, 注意到, 假設ϵ,m\epsilon, m是固定的, 那麼nn足夠大的時候攝動就會特別大.

非線性

由線性啓發至非線性(因爲很多deep networks 的表現是線性的), 便是
x~=x+ϵsign(xJ(θ,x,y)). \tilde{x}=x+ \epsilon \: \mathrm{sign} (\nabla_x J(\theta, x, y)).
實驗證明, 即便是GoogLeNet這樣的網絡也會被生成的adversarial examples所欺騙.

其實看這篇文章的主要一個問題就是爲什麼ηϵxJ(θ,x,y)\eta \not = \epsilon \: \nabla_x J(\theta, x, y), 逼近這個方向纔是令損失函數增長最快的方向.

文中有這麼一段話, 不是很明白:

Because the derivative of the sign function is zero or undefined everywhere, gradient descent on the adversarial objective function based on the fast gradient sign method does not allow the model to anticipate how the adversary will react to changes in the parameters. If we instead adversarial examples based on small rotations or addition of the scaled gradient, then the perturbation process isitselfdifferentiableandthelearningcantakethereactionoftheadversaryintoaccount. However, we did not find nearly as powerful of a regularizing result from this process, perhaps because these kinds of adversarial examples are not as difficult to solve.

順便記一下論文的總結:

  • 正是因爲deep networks表現過於線性, 纔會導致advesarial examples.
  • 不同的網絡的adversarial examples是相通的, 這可能是因爲二者逼近的函數是近似的
  • 攝動的方向而非個別特定點起了更重要的作用
  • 對抗訓練是一種正則化過程
  • 越容易優化的模型又容易被欺騙
  • 線性模型缺乏對抗欺騙的能力
  • 擬合輸入數據分佈的模型缺乏對抗欺騙的能力
  • Ensembles are not resistant to adversarial examples. (多個模型組合(取平均判斷類別)依然缺乏對抗欺騙的能力).
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章