[論文解讀]Threat of Adversarial Attacks on Deep Learning in Computer Vision: A Survey

Threat of Adversarial Attacks on Deep Learning in Computer Vision: A Survey

簡介

論文標題

  • Threat of Adversarial Attacks on Deep Learning in Computer Vision: A Survey
  • 計算機視覺中對抗性攻擊對深度學習的威脅:綜述
  • 2018.2

摘要

深度學習是當前人工智能崛起的核心。在計算機視覺領域,它已經成爲從自動駕駛汽車到監控和安全等各種應用的主力。雖然深度神經網絡在解決複雜問題方面取得了驚人的成功(通常超出了人類的能力),但最近的研究表明,它們很容易受到對手的攻擊,這種攻擊的形式是對輸入的微妙擾動,導致模型預測不正確的輸出。對於圖像,這樣的擾動往往太小而無法察覺,但它們完全欺騙了深度學習模型。對抗性攻擊嚴重威脅了深度學習在實踐中的成功。這一事實最近導致了這一方向的大量捐款湧入。本文首次對計算機視覺中深度學習的對抗性攻擊進行了全面的調查。我們回顧了設計對抗性攻擊的工作,分析了此類攻擊的存在,並提出了防禦措施。爲了強調對抗性攻擊在實際條件下是可能的,我們分別回顧了在現實世界場景中評估對抗性攻擊的貢獻。最後,在文獻綜述的基礎上,對這一研究方向進行了更廣闊的展望。

常用術語

  1. Adversarial attacks 對抗攻擊

  2. Adversarial example/image 對抗樣本/圖像

    對抗樣本/圖像是乾淨圖像的一個修改版本,它被故意干擾(例如通過添加噪聲)來混淆/愚弄機器學習技術,如深層神經網絡。

  3. Adversarial perturbation 對抗性擾動

    對抗性擾動是將噪聲添加到乾淨的圖像中,使其成爲對抗性的例子。

  4. Adversarial training 對抗性訓練

    對抗訓練是指除了使用乾淨的圖像外,還使用對抗性圖像來訓練機器學習模型。

  5. Adversary 對抗者

    對抗者通常指的是創造對抗性例子的代理人。但是,在某些情況下,示例本身也稱爲對抗者

  6. Black-box attacks 黑盒攻擊

    黑盒攻擊向目標模型提供在不瞭解該模型的情況下生成的對抗性示例(在測試期間)。在一些情況下,假設對手具有有限的模型知識(例如,其訓練過程和/或其體系結構),但是絕對不知道模型參數。在其他情況下,使用有關目標模型的任何信息被稱爲“半黑盒”攻擊。我們在本文中使用以前的約定。

  7. Detector 檢測器

    檢測器是一種(僅)檢測圖像是否是爲對抗樣本的機制

  8. Fooling ratio/rate 欺騙率

    欺騙率/比率指示在圖像被擾動之後訓練模型在其上改變其預測標籤的圖像的百分比。

  9. One-shot/one-step methods 一次/一步方式

    一次/一步方式通過執行一步計算(例如,計算一次模型損失的梯度)來產生對抗性擾動。相反的是迭代方式,它們多次執行相同的計算以獲得單個擾動。後者通常在計算上很昂貴。

  10. Quasi-imperceptible 準不可察覺的擾動

    準不可察覺的擾動對於人類的感知來說對圖像的損害非常輕微。

  11. Rectifier 整流器(校正器)

    整流器修改對抗樣本,以將目標模型的預測恢復到其對同一示例的乾淨版本的預測。

  12. Targeted attacks 有目標攻擊

    目標攻擊欺騙了模型,使其錯誤地預測對抗性圖像爲特定標籤。它們與非目標攻擊相反,在非目標攻擊中,對抗性圖像的預測標記是不相關的,只要它不是正確的標記。

  13. Threat model

    威脅模型是指一種方法考慮的潛在攻擊類型,例如黑盒攻擊。

  14. Transferability

    可轉移性指的是對抗性例子即使對於用於生成它的模型之外的其他模型也保持有效的能力。

  15. Universal perturbation 普遍擾動

    普遍擾動能夠以很高的概率在任意圖像上欺騙給定模型。請注意,普遍性是指擾動的性質是“圖像不可知論”,而不是具有良好的可轉移性。

  16. White-box attacks 白盒攻擊

    白盒攻擊假設了目標模型的完整知識,包括其參數值、體系結構、訓練方法,在某些情況下還包括其訓練數據。

對抗性攻擊

用於分類的攻擊

  1. Box-constrained L-BFGS
  2. Fast Gradient Sign Method (FGSM)
  3. Basic & Least-Likely-Class Iterative Methods(BIM)
  4. Jacobian-based Saliency Map Attack (JSMA)
  5. One Pixel Attack
  6. Carlini and Wagner Attacks (C&W)
  7. DeepFool
  8. Universal Adversarial Perturbations
  9. Upset and Angri
  10. Houdini
  11. Adversarial Transformation Networks (ATNs)
  12. Miscellaneous Attacks

Box-constrained L-BFGS

IcRm\mathbf{I}_{c} \in \mathbb{R}^{m}表示矢量化的乾淨圖像-下標‘c’強調圖像是乾淨的,可以理解成參數xx

ρRm\boldsymbol{\rho} \in \mathbb{R}^{m},是對抗性擾動

' \ell^{\prime} 表示圖像的標籤,可以理解成參數yy

C(.)\mathcal{C}(.)是深度神經網絡分類器

解決問題如下:
minρρ2 s.t. C(Ic+ρ)=;Ic+ρ[0,1]m \min _{\boldsymbol{\rho}}\|\boldsymbol{\rho}\|_{2} \text { s.t. } \mathcal{C}\left(\mathbf{I}_{c}+\boldsymbol{\rho}\right)=\ell ; \mathbf{I}_{c}+\boldsymbol{\rho} \in[0,1]^{m}
該方法使用牛頓法進行計算,計算量很大,因此使用盒子約束的L-BFGS來尋求近似解。這是通過找到最小c>0c>0來實現的,對於該最小c>0c>0,以下問題的最小化ρρ滿足條件C(Ic+ρ)=\mathcal{C}\left(\mathbf{I}_{c}+\boldsymbol{\rho}\right)=\ell,這就將問題轉化成了凸優化過程
minρcρ+L(Ic+ρ,) s.t. Ic+ρ[0,1]m \min _{\rho} c|\boldsymbol{\rho}|+\mathcal{L}\left(\mathbf{I}_{c}+\boldsymbol{\rho}, \ell\right) \text { s.t. } \mathbf{I}_{c}+\boldsymbol{\rho} \in[0,1]^{m}
其中:

L(.,.)\mathcal{L}(., .)分類器的損失函數值

公式中,既想要擾動越小,同時想讓損失越小,損失越小代表分成錯誤類別的可能性越大

Fast Gradient Sign Method (FGSM)

本文提出了一種通過解決以下問題來有效計算給定圖像的對抗性擾動的方法
ρ=ϵsign(J(θ,Ic,)) \rho=\epsilon \operatorname{sign}\left(\nabla \mathcal{J}\left(\boldsymbol{\theta}, \mathbf{I}_{c}, \ell\right)\right)
J(,.)\nabla \mathcal{J}(\ldots, .): 損失函數關於輸入X的導數

sign(.)\operatorname{sign}(.): 符號函數

ϵ\epsilon: 限制擾動範數的小標量值

注意: 這裏是關於X求導,即固定住參數,並且使X向損失函數增大的方向上去改變,這種方法通過替換目標值 y 就可以讓攻擊樣本朝着指定的分類目標走,即,可以做任意目標的欺騙。

線性假設 linearity hypothesis

FGSM生成的對抗性例子利用了深網絡模型在高維空間中的“線性”,而這種模型在當時通常被認爲是高度非線性的。

古德費羅等人假設現代深層神經網絡的設計(有意地)鼓勵計算增益的線性行爲,也使它們容易受到廉價的分析擾動。在相關文獻中,這一想法通常被稱爲“線性假設”,FGSM方法證實了這一點。

Kurakin 等人提出了 FGSM 的「one-step target class」的變體。通過用使用網絡爲IcI_c預測的最不可能類別的“目標”代替對抗擾動中的類別變量,再將原始圖像減去該擾動,原始圖像就變成了對抗樣本,並能輸出目標類別。

變體: Fast Gradient L2L2
ρ=ϵJ(θ,Ic,)J(θ,Ic,)2 \rho=\epsilon \frac{\nabla \mathcal{J}\left(\boldsymbol{\theta}, \mathbf{I}_{c}, \ell\right)}{\left\|\nabla \mathcal{J}\left(\boldsymbol{\theta}, \mathbf{I}_{c}, \ell\right)\right\|_{2}}
相關的還有Fast Gradient LL_{\infty}

這些方法屬於 one-step方法

Basic & Least-Likely-Class Iterative Methods(BIM)

動機: one-step 方法通過一大步運算增大分類器的損失函數而進行圖像擾動,因而可以直接將其擴展爲通過多個小步增大損失函數的變體,從而我們得到 Basic Iterative Methods(BIM)。而該方法的變體和前述方法類似,通過用識別概率最小的類別(目標類別)代替對抗擾動中的類別變量,而得到 Least-Likely-Class Iterative Methods

其每一步迭代的公式爲
Iρi+1=Clipϵ{Iρi+αsign(J(θ,Iρi,)} \mathbf{I}_{\rho}^{i+1}=\operatorname{Clip}_{\epsilon}\left\{\mathbf{I}_{\rho}^{i}+\alpha \operatorname{sign}\left(\nabla \mathcal{J}\left(\boldsymbol{\theta}, \mathbf{I}_{\rho}^{i}, \ell\right)\right\}\right.
Iρi\mathbf{I}_{\boldsymbol{\rho}}^{i}: 表示第ithi^{\mathrm{th}}次迭代的擾動圖像

Clipϵ{Clip}_{\epsilon}:表示在ϵ\epsilon處剪輯圖像的像素值

Bim算法從Iρ0=Ic\mathbf{I}_{\rho}^{0}=\mathbf{I}_{c}處開始迭代,是一種標準的凸優化算法

Madry等[55]指出此方法和一種叫梯度下降投影(Projected Gradient Descent)的標準凸優化方法相似

與FGSM擴展到‘one-step target class’相似,Kurakin等也將BIM擴展到’Iterative Least-likely Method’ (ILCM)。

ILCM方法生成的對抗性示例已經被證明嚴重影響了現代深層體系結構Inceptionv3[145]的分類精度

Jacobian-based Saliency Map Attack (JSMA)

Papernot等提出了通過限制0\ell_{0}範數來生成對抗攻擊的方法,這在物理上意味着一次只修改幾個像素,而不是擾動整個圖像。
該方法一次只擾動一個像素,並檢查分類結果的變化情況。其可以進行目標攻擊,並在每次選擇一個最能迷惑網絡的像素並改變它,以此反覆迭代
L_0範數爲向量中不爲0的個數

One Pixel Attack

這是一種極端的對抗攻擊方法,僅改變圖像中的一個像素值就可以實現對抗攻擊。Su 等人使用了差分進化(Differential Evolution)算法,對每個像素進行迭代地修改生成子圖像,並與母圖像對比,根據選擇標準保留攻擊效果最好的子圖像,實現對抗攻擊。這種對抗攻擊不需要知道網絡參數或梯度的任何信息。
這是一種黑盒攻擊,唯一需要知道的就是目標分類器對樣本的預測概率
類似於遺傳算法,從候選種羣中變異產生最優解

Carlini and Wagner Attacks (C&W)

Carlini和Wagner提出了三種對抗攻擊的方法,其對蒸餾防禦(defensive distillation)有效。
該算法生成的擾動可以從unsecrued網絡,遷移到secured網絡上(有蒸餾),從而實現黑盒攻擊。

受此啓發,Chen等提出了基於’Zeroth Order Optimization (ZOO)'的攻擊。其直接估計目標模型的梯度來生成對抗樣本。

DeepFool

Moosavi-Dezfooli 等人 [72] 通過迭代計算的方法生成最小規範對抗擾動,將位於分類邊界內的圖像逐步推到邊界外,直到出現錯誤分類。作者證明他們生成的擾動比 FGSM 更小,同時有相似的欺騙率。

Universal Adversarial Perturbations

諸如 FGSM [23]、 ILCM [35]、 DeepFool [72] 等方法只能生成單張圖像的對抗擾動,而 Universal Adversarial Perturbations[16] 能生成對任何圖像實現攻擊的擾動,

該論文中使用的方法和 DeepFool 相似,都是用對抗擾動將圖像推出分類邊界,不過同一個擾動針對的是所有的圖像。

通用的擾動需滿足下式
PIcc(C(Ic)C(Ic+ρ))δ s.t. ρpξ \underset{\mathbf{I}_{c} \sim \Im_{c}}{\mathrm{P}}\left(\mathcal{C}\left(\mathbf{I}_{c}\right) \neq \mathcal{C}\left(\mathbf{I}_{c}+\rho\right)\right) \geq \delta \quad \text { s.t. }\|\boldsymbol{\rho}\|_{p} \leq \xi
其中:

P(.)P(.): 代表概率

δ(0,1]\delta \in(0,1]: 欺騙率

ξ\xi:預定義的常數,值越小,就越難感知圖像中的擾動

Upset and Angri

Sarkar[146] 等人提出了兩個黑箱攻擊算法,UPSET 和 ANGRI。UPSET 可以爲特定的目標類別生成對抗擾動,使得該擾動添加到任何圖像時都可以將該圖像分類成目標類別。相對於 UPSET 的「圖像不可知」擾動,ANGRI 生成的是「圖像特定」的擾動。它們都在 MNIST 和 CIFAR 數據集上獲得了高欺騙率。

UPSET 的優化問題如下:
Iρ=max(min(sR(t)+Ic,1),1) \mathbf{I}_{\rho}=\max \left(\min \left(s \mathrm{R}(\mathrm{t})+\mathbf{I}_{c}, 1\right),-1\right)
其中,

像素值Ic\mathbf{I}_{c}被限制在[1,1][-1,1]內,ss是一個標量,

殘差生成網絡R(.)R(.)把目標類別tt作爲輸入,並輸出一個擾動R(t)R(t)
根據公式Ip的大小在[0,1]之間

Houdini

Houdini是一種用於欺騙基於梯度的機器學習算法的方法,通過生成特定於任務損失函數的對抗樣本實現對抗攻擊,即利用網絡的可微損失函數的梯度信息生成對抗擾動。除了圖像分類網絡,該算法還可以用於欺騙語音識別網絡。

Adversarial Transformation Networks (ATNs)

Baluja 和 Fischer[42] 訓練了多個前向神經網絡來生成對抗樣本,可用於攻擊一個或多個網絡。該算法通過最小化一個聯合損失函數來生成對抗樣本,該損失函數有兩個部分,第一部分使對抗樣本和原始圖像保持相似,第二部分使對抗樣本被錯誤分類

結果顯示,儘管上述方法能被察覺出來,但是它們的欺騙率是前所未有的高

Miscellaneous Attacks

其他: 混雜攻擊

其他的攻擊方法包括:

  • Sabour等顯示了通過改變深層神經網絡的內層來生成對抗性例子的可能性。
  • Papernot等研究了用於深度學習的對抗性攻擊的可轉移性以及其他機器學習技術,並進一步介紹了可轉移性攻擊。
  • Narodytska和Kasiviswanathan[54]提出了僅改變圖像中的幾個像素點來欺騙神經網絡的更進一步的黑盒攻擊。
  • Liu等介紹了“epsilon近鄰”這種能夠以100%準確率欺騙蒸餾防禦網絡的白盒攻擊方法。
  • Oh等從博弈論的角度研究了針對防禦對抗的網絡的攻擊。
  • Mpouri等設計了與數據無關的方法來生成通用的對抗擾動。
  • Hosseini等引入了“語義對抗樣本”的概念,以輸入圖像能與人類的語義相同但是會被錯分爲基礎思路。
  • Kanbak等基於DeepFool方法的缺陷使用了“ManiFool”方法,用於評估神經網絡對幾何擾動的魯棒性。
  • Dong等提出了一種迭代方法來提升黑盒攻擊。
  • Carlini和Wagner說明了十種對抗的防禦方法可以通過使用新的損失函數而失效。
  • Rozsa等提出了“熱、冷”的方法,對一張圖像生成多個可能的對抗樣本。

分類/識別場景以外的對抗攻擊

  • 在自編碼器和生成模型上的攻擊
  • 在循環神經網絡上的攻擊
  • 深度強化學習上的攻擊
  • 在語義切割和物體檢測上的攻擊

現實場景下的對抗攻擊

  • Attacks on Face Attributes 面部特徵攻擊
  • Cell-phone camera attack 手機相機攻擊
  • Road sign attack 路標攻擊
  • Generic adversarial 3D objects 生成敵對3D對象
  • Cyberspace attacks 網絡攻擊
  • Robotic Vision & Visual QA Attacks 機器人視覺和視覺QA攻擊

對抗樣本的存在性分析

這部分不是很懂

  1. Limits on adversarial robustness 對抗魯棒性的限制
  2. Space of adversarial examples 對抗樣本的空間
  3. Boundary tilting perspective 邊界傾斜觀點
  4. Prediction uncertainty and evolutionary stalling of training cause adversaries 預測的不準確性和訓練中進化的停滯導致了反例的產生
  5. Accuracy-adversarial robustness correlation 準確性-對抗 的魯棒性相關
  6. More on linearity as the source 更多關於線性的來源
  7. Existence of universal perturbations 通用擾動的存在

對抗攻擊防禦

目前,在對抗攻擊防禦上存在三個主要方向

1)在學習過程中修改訓練過程或者在測試階段修改的輸入樣本。

2)修改網絡,比如:添加更多層/子網絡、改變損失/激活函數等。

3)當分類未見過的樣本時,用外部模型作爲附加網絡。

這些方向具體又可分爲(a)完全抵抗(Complete),即能夠分對對抗樣本的原始類別(b)僅探測方法(Detection only),即只鑑別出哪些是對抗樣本。具體分類如下圖:

Modified training/input

修改訓練過程/ 輸入數據

Brute-force adversarial training

通過不斷輸入新類型的對抗樣本並執行對抗訓練,從而不斷提升網絡的魯棒性。

爲了保證有效性,該方法需要使用高強度的對抗樣本,並且網絡架構要有充足的表達能力。

這種方法需要大量的訓練數據,因而被稱爲蠻力對抗訓練。

很多文獻中提到這種蠻力的對抗訓練可以正則化網絡以減少過擬合 [23,90]。

然而,Moosavi-Dezfooli[16] 指出,無論添加多少對抗樣本,都存在新的對抗攻擊樣本可以再次欺騙網絡

Data compression as defense

注意到大多數訓練圖像都是 JPG 格式,Dziugaite等人使用 JPG 圖像壓縮的方法,減少對抗擾動對準確率的影響。實驗證明該方法對部分對抗攻擊算法有效,但通常僅採用壓縮方法是遠遠不夠的,並且壓縮圖像時同時也會降低正常分類的準確率,後來提出的 PCA 壓縮方法也有同樣的缺點。

矛盾: 較大的壓縮也會導致對乾淨圖像的分類精度的損失,而較小的壓縮通常不能充分消除敵意干擾。

Foveation based defense

Luo等人提出用中央凹(foveation)機制可以防禦 L-BFGS 和 FGSM 生成的對抗擾動,其假設是圖像分佈對於轉換變動是魯棒的,而擾動不具備這種特性。但這種方法的普遍性尚未得到證明。

Data randomization and other methods

Xie等人發現對訓練圖像引入隨機重縮放可以減弱對抗攻擊的強度,其它方法還包括隨機 padding、訓練過程中的圖像增強等

Modifying the network

Deep Contractive Networks

人們觀察到簡單地將去噪自編碼器(Denoising Auto Encoders)堆疊到原來的網絡上只會使其變得更加脆弱,因而 Gu 和 Rigazio[24] 引入了深度壓縮網絡(Deep Contractive Networks),其中使用了和壓縮自編碼器(Contractive Auto Encoders)類似的平滑度懲罰項

Gradient regularization/masking

Ross和Doshi-V Elez[52]研究了輸入梯度正則化[167]作爲對抗魯棒性的一種方法。他們的方法訓練可微分模型(例如,深度神經網絡),同時懲罰導致輸出相對於輸入變化的變化程度。這意味着,一個小的對抗性擾動不太可能徹底改變訓練模型的輸出。結果表明,該方法與暴力對抗性訓練相結合,對FGSM[23]和JSMA[60]等攻擊具有很好的魯棒性。然而,這些方法中的每一種都幾乎使網絡的訓練複雜度翻了一番,這在許多情況下已經是令人望而卻步的

Defensive distillation

據Hinton等[166]介紹,distillation (蒸餾)是指將複雜網絡的知識遷移到簡單網絡上。該知識以訓練數據的類概率向量形式提取,並反饋給訓練原始模型。Papernot[38] 利用這種技術提出了 Defensive distillation,並證明其可以抵抗小幅度擾動的對抗攻擊。防禦性蒸餾也可以被看作是梯度遮罩技術的一個例子

Biologically inspired protection

使用類似與生物大腦中非線性樹突計算的高度非線性激活函數以防禦對抗攻擊 [124]。另外一項工作 Dense Associative Memory 模型也是基於相似的機制 [127]。Brendel和Bethge[187]聲稱,由於計算的數值限制,這些攻擊在生物激發的保護上失敗了[124]。穩定計算再次讓攻擊受保護的網絡成爲可能。

Parseval Networks

這些網絡通過控制網絡的全局Lipschitz常數來分層正則化。網絡可以被看作是函數(在每一層)的組合,通過對這些函數保持一個小的Lipschitz常數,可以對這些函數對抗小的干擾。

DeepCloak

在分類層(一般爲輸出層)前加一層特意爲對抗樣本訓練的遮罩層。添加的層通過向前傳遞乾淨的和對抗性的圖像對進行顯式的訓練,它爲這些圖像對編碼先前層的輸出特性之間的差異。它背後的理論認爲添加層中最主要的權重對應於網絡最敏感的特性(就對抗操縱而言)。因此,在進行分類時,這些特徵被強制將添加的層的主導權重變爲零。

Miscellaneous approaches

這章包含了多個人從多種角度對深度學習模型的調整從而使模型可以抵抗對抗性攻擊。

Zantedeschi等[46]提出使用有界的ReLU[174]來降低圖像中對抗性模式的有效性。

Jin等[120]介紹了一種前饋CNN,它使用附加噪聲來減輕對抗性示例的影響。

Sun et al.[56]提出了以統計過濾爲方法使網絡具有魯棒性的超網絡。

Madry et al.[55]從魯棒優化的角度研究對抗性防禦。他們表明,與PGD對手進行對抗性訓練,可以成功地抵禦一系列其他對手。後來,Carlini等[59]也證實了這一觀察。

Na等[85]採用了一種統一嵌入的網絡進行分類和低水平相似度學習。該網絡使用的是乾淨圖像和相應的對抗性嵌入樣本之間的距離。

施特勞斯等人[89]研究了保護網絡免受擾動的集成方法。

Kadran等[136]修改了神經網絡的輸出層,以誘導對對抗攻擊的魯棒性。

Wang et al.[129],[122]利用網絡中的非可逆數據變換,開發了抗敵對神經網絡。

Lee等人[106]開發了多種規則化網絡,利用訓練目標來最小化多層嵌入結果之間的差異。

Kotler和Wong[96]提出學習基於相關性的分類器,該分類器對小對抗擾動具有魯棒性。他們訓練一個神經網絡,在一個標準設置中,它可以很好地達到高精確度(90%)。

Raghunathan等[189]研究了具有一個隱藏層的神經網絡的防禦問題。他們的方法在
MNIST數據集上生成一個網絡和一個證書,達到一個防禦目的。

Kolter和Wong[96]和Raghunathan等[189]是爲數不多的幾種可以證明的對抗敵對攻擊的方法。考慮到這些方法在計算上不適用於更大的網絡,唯一被廣泛評估的防禦是Madry等人[55]的防禦。

Detection Only approaches

這章介紹了 4 種網絡,SafetyNet,Detector subnetwork,Exploiting convolution filter statistics 及 Additional class augmentation。

  • SafetyNet 介紹了 ReLU 對對抗樣本的模式與一般圖片的不一樣,文中介紹了一個用 SVM 實現的工作。
  • Detector subnetwork 介紹了用 FGSM, BIM 和 DeepFool 方法實現的對對抗樣本免疫的網絡的優缺點。
  • Exploiting convolution filter statistics 介紹了同 CNN 和統計學的方法做的模型在分辨對抗樣本上可以有 85% 的正確率。

使用附加網絡

  • Defense against universal perturbations 防禦通用擾動
  • GAN-based defense 基於 GAN 的防禦
  • Detection Only approaches 僅探測方法

Defense against universal perturbation

Akhtar等人[81]提出了一種防禦框架,該框架將額外的預輸入層附加到目標網絡中,並訓練它們對對抗樣本進行校正,使分類器對同一圖像的乾淨版本的預測與對抗樣本預測相同。通過提取訓練圖像輸入輸出差異的特徵,對分離的檢測器進行訓練。利用一個單獨訓練的網絡加在原來的模型上,從而達到不需要調整係數而且免疫對抗樣本的方法

GAN-based defense

Lee等人[101]利用生成性對抗網絡的流行框架[153]來訓練一個對FGSM[23]類攻擊健壯的網絡。作者建議沿着一個生成網絡直接對網絡進行訓練,該網絡試圖對該網絡產生擾動。在訓練過程中,分類器不斷嘗試對乾淨和擾動的圖像進行正確的分類。我們將此技術歸類爲附加方法,因爲作者建議始終以這種方式訓練任何網絡。在另一個基於GAN的防禦中,Shen等[58]人使用網絡的生成器部分來修正一個受干擾的圖像。

Detection Only approaches

介紹了 Feature Squeezing、MagNet 以及混雜的辦法。

  • Feature Squeezing 方法用了兩個模型來探查是不是對抗樣本。後續的工作介紹了這個方法對 C&W 攻擊也有能接受的抵抗力。
  • MagNet:作者用一個分類器對圖片的流行(manifold)測量值來訓練,從而分辨出圖片是不是帶噪聲的,值得注意的是,Carlini和Wagner[188]最近證明,這種防禦技術也可以在稍大的擾動下被擊敗。
  • 混雜方法(Miscellaneous Methods):作者訓練了一個模型,把所有輸入圖片當成帶噪聲的,先學習怎麼去平滑圖片,之後再進行分類。

對研究方向的展望

  1. The threat is real

    這種威脅是真實存在的 : 我們可以斷言,對抗性攻擊在實踐中對深度學習構成了真正的威脅

  2. Adversarial vulnerability is a general phenomenon

    敵意脆弱性是一種普遍的現象:我們可以很容易地發現深度學習方法通常容易受到敵意攻擊。

  3. Adversarial examples often generalize well

    對抗性例子通常具有很好的通用性:文獻中報道的對抗性例子最常見的屬性之一是它們在不同的神經網絡之間很好地轉移。對於架構相對相似的網絡尤其如此。黑盒攻擊中經常利用對抗性例子的泛化。

  4. Reasons of adversarial vulnerability need more investigation

    對抗性脆弱性的原因需要更多的研究:關於深層神經網絡對微妙的對抗性擾動的脆弱性背後的原因,文獻中有不同的觀點。通常,這些觀點彼此不能很好地對齊。顯然有必要在這個方向上進行系統的調查。

  5. Linearity does promote vulnerability

    線性確實促進了脆弱性:古德費羅等人。[23]首先提出,現代深層神經網絡的設計迫使它們在高維空間中線性行爲,也使它們容易受到對手的攻擊。雖然這一概念很受歡迎,但在文學中也遇到了一些反對意見。我們的調查指出了多個獨立的貢獻,認爲神經網絡的線性是它們易受對手攻擊的原因。基於這一事實,我們可以認爲線性確實提高了深層神經網絡對敵意攻擊的脆弱性。然而,這似乎並不是成功地用廉價的分析擾動愚弄深度神經網絡的唯一原因。

  6. Counter-counter measures are possible

    反措施是可能的:雖然存在多種防禦技術來對抗對抗性攻擊,但文獻中經常顯示,被防禦的模型可以再次通過制定反措施成功攻擊,例如見。這一觀察結果表明,新的防禦措施還需要對它們對抗明顯的反措施的健壯性進行估計。

神經網絡中的對抗攻擊與對抗樣本

學界 | 綜述論文:對抗攻擊的12種攻擊方法和15種防禦方法

Threat of Adversarial Attacks on Deep Learning in Computer Vision: A Survey 論文閱讀筆記

吐血整理 | AI新方向:對抗攻擊

機器視覺中使用深度學習所面臨的對抗攻擊——Survey(上)

機器視覺中使用深度學習所面臨的對抗攻擊——Survey(下)

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章