Procedural Noise Adversarial Examples for Black-Box Attacks on Deep Neural Networks論文筆記

Procedural Noise Adversarial Examples for Black-Box Attacks on Deep Neural Networks論文筆記

0. 概述

如今一些深度神經網絡對於一些對抗性樣本(Adversarial sample)是弱勢的, 對抗性樣本就是指我們對輸入進行特定的改變, 通過原有的學習算法最終導致整個網絡內部出現誤差, 這屬於攻擊的一種, 然而, 現在的攻擊都是要麼計算代價特別大, 要麼需要對目標的模型和數據集有大量的先驗知識, 因此, 這些方法在實際上其實都不實用. 該文章主要介紹了一種程序性噪聲, 利用該噪聲, 使得構造實用的低計算量的黑盒攻擊成爲了可能, 對抗魯棒性的神經網絡結構, 比如Inception v3和Inception ResNet v2 在ImageNet數據集上. 該文章所提出來的攻擊實現了低嘗試次數下成功造成錯分類.
這種攻擊形式揭露了神經網絡對於Perlin噪聲的脆弱性, Perlin噪聲是一種程序性噪聲(Procedural Noise), 一般用於生成真實的紋理, 使用Perlin噪聲可以實現對所有的分類器都實現top1 至少90%的錯誤率, 更加令人擔憂的是, 該文顯示出大多數的Perlin噪聲是具有**“普適性”**(Universal)的, 在對抗樣本中, 數據集的大部分, 使用簡單的擾動使得高達70%的圖片被錯誤分類

Top-5錯誤率: 即對一個圖片,如果概率前五中包含正確答案,即認爲正確。
Top-1錯誤率: 即對一個圖片,如果概率最大的是正確答案,才認爲正確。
這樣的結果揭示了DNN系統的脆弱性, 並且該脆弱性需要被更多地研究, 該文也顯示了對抗訓練的侷限性, 對抗訓練是一種用來增強魯棒性以至於能夠防禦對抗樣本的手段, 然而, 攻擊者只需要改變生成對抗樣本的視角就能夠實現成功攻擊, 並且作爲防禦者, 很難去預測所有未來可能的對抗擾動.

1. 介紹

首先, 我們需要知道神經網絡是十分脆弱的, 現存的有很多攻擊手段, 比如在訓練過程中, 攻擊者可以注入一些惡意的樣本(malicious data), 這個稱之爲下毒攻擊(poisoning attack), 目標是降低整體的性能(performance). 在測試階段, 攻擊者可以利用學習算法的盲點和弱項來製造內部的誤差, 我們稱之爲閃避性攻擊(evasion attack), 這種針對機器學習系統的攻擊在很多針對反病毒引擎, 反垃圾郵件或者在社交網路上檢測虛假文件和虛假消息的系統上已經被報告出來.

在圖像分類任務上, Szegedy等人提出神經網絡會容易受這樣的對抗樣本所影響: 使用和真實的數據無差別的圖片作爲輸入, 結果是錯分類的, 擾動的目的是爲了欺騙學習算法, 這樣的擾動通常來說特別小, 檢測這些對抗樣本是一種挑戰.

舉個例子, 更改某幾個像素點的值, 或者加上一些微妙的噪聲
示例

上圖就是使用該文章所提出來的方法來進行噪聲的添加, 最終導致分類錯誤, 最左邊是原圖, 中間是添加了噪聲的圖片, 原本被分類成"analog clock"被錯分類成"barbell"

關於製作這些對抗性樣本提出來的有黑盒和白盒的方法, 白盒的方法依賴於基於增加到對抗樣本的擾動大小的約束和一個機器學習分類器提供的機率(odds). 雖然, 這些攻擊是十分有效的, 但是確是計算代價較大的, 並且對於擴展到自然大圖片數據集上不友好, 比如ImageNet.

這裏的odds應該是指softmax後的整個概率向量

通常來說, 黑盒攻擊使用兩種方法:

  1. 通過估計目標函數的梯度
  2. 使用對抗樣本的可轉移屬性(transferability property)

構造者通常都要對機器學習系統進行大量的請求, 並且很難應用於高維度的數據集, 通常需要構建一個代理數據集和代理模型.
利用代理模型進行攻擊比利用梯度要更好地進行擴展, 能夠在一些ImageNet數據集上實現高達70% 的top-1 閃避(evasion), 並且減少請求的次數. 然而, 這些方法還是需要對目標分類器的瞭解或者是相似分類器的瞭解, 和梯度估計方法不同, 假設了攻擊者具有更受限制的知識.

該篇文章提出了一個新穎的方法來生成有效的對抗樣本, 在計算機視覺任務上作爲黑盒攻擊. 發現程序性噪聲在欺騙自然圖片分類器上具有極好的效果, 並且計算代價十分小, 請求次數也十分小.

Perlin噪聲模式是用來生成自然界的紋理的, 在圖片和視頻遊戲中也有應用, 有趣的是, 這些擾動視覺上類似通用的對抗擾動(Universal Adversarial Perturbation), 能夠使用相同的對抗噪聲模式來高概率地欺騙一個深度神經網絡.

該文的方法依賴於一個減少控制噪聲生成的參數的優化, 提出使用貝葉斯優化(Bayesian optimization), 這個優化已經被證明是對於黑盒優化有效的方法, 它通過考慮目標函數的估計的不確定性來減少了函數的數目.

實驗結果是能夠達到至少90%和45%的top-1和top-5錯誤率, 是部分的黑盒攻擊的效果的兩倍, 更進一步, 該結果在大多數情況下對比白盒攻擊在ImageNet上效果甚至更好.

對抗訓練(adversarial training)用於增強模型對於對抗樣本的魯棒性, 雖然該方法應對白盒攻擊體現出了效果, 該文顯示了其限制性, 只要攻擊者改變生成對抗樣本的視角即可, 我們使用了全體對抗訓練(ensemble adversarial training), 對抗訓練裏面最優的模型, 仍然對於Perlin噪聲攻擊不夠有魯棒性.

給出該文章的主要貢獻:

  • 介紹一種黑盒攻擊, 可擴展並且計算高效, 使用真實和自然紋理的程序性噪聲函數, 展現了DNN在該種擾動下的脆弱性, 在ImageNet上比目前的黑盒和白盒攻擊都要表現出色.
  • 提出了黑盒優化的貝葉斯優化方法, 用來學習Perlin噪聲的參數, 使用很少的迭代次數就可以製造出成功的對抗樣本
  • 和通用的擾動類似, 展現了一個通過我們的perlin噪聲生成的單擾動能夠實現許多成功的攻擊對於大量的數據點集合而言. 徹底地減少了攻擊者爲了擴展攻擊造成的影響.
  • 我們的攻擊策略顯示出了對抗學習的限制性, 並且經驗性地顯示最好的全體對抗訓練模型對於程序性噪聲擾動並沒有足夠有效.

2. 相關工作

機器學習的脆弱性由**對抗機器學習(adversarial machine learning)**開展的一系列研究來進行探索.

關於對抗機器學習, 該方向是機器學習和安全的交叉點, 爲了探究能夠使攻擊者來破壞機器學習系統的方法, 以及開發更加魯棒性的算法用於減輕這些攻擊的效果.

在訓練階段, 攻擊者可以使用毒害攻擊(poisoning attack), 通過注入一些惡意數據 到我們的訓練集合裏面, 進而操縱整個系統的行爲, 同時是爲了降低整個系統的性能. 第一個實際中的毒害攻擊被應用在了垃圾郵件過濾和異常檢測系統之中.

防禦策略通常有以下兩種方法:

  • 試圖在訓練階段, 將一些具有壞影響的樣本剔除出去.
  • 假設大多數有影響的樣本是異常的樣本, 利用異常檢測進行剔除.

**偷漏攻擊(Evasion attack)**是在測試階段進行攻擊的方法, 使得模型產生內部的錯誤, 並且使用這種弱點和盲點.

我們可以根據對抗者的能力和知識來對攻擊進行分類

  • 白盒攻擊: 攻擊者對目標分類器和數據集都能夠訪問
  • 黑盒攻擊: 攻擊者不瞭解目標分類器和訓練數據集

白盒攻擊是**基於遷移(transferability-based)**的黑盒攻擊的基礎

Szegedy等人提出來最小化攻擊, 做出最小化的擾動來實現攻擊, 使用L-BFGS來解決優化問題

C. Szegedy, W. Zaremba, I. Sutskever, J. Bruna, D. Erhan, I. Goodfellow, and R. Fergus, “Intriguing Properties of Neural Networks,” arXiv preprint arXiv:1312.6199, 2013.

Biggio等人提出來限制最大擾動的攻擊.

B. Biggio, I. Corona, D. Maiorca, B. Nelson, N. ˇSrndi´c, P. Laskov, G. Giacinto, and F. Roli, “Evasion Attacks against Machine Learning at Test Time,” in Joint European Conference on Machine Learning and Knowledge Discovery in Databases, 2013, pp. 387–402.

Goodfellow等人提出來快速梯度符號方法(FGSM— Fast Gradient Sign Method)攻擊, 利用cost函數反推出梯度, 然後對樣本進行擾動.

**I. J. Goodfellow, J. Shlens, and C. Szegedy, “Explaining and Harnessing Adversarial Examples,” arXiv preprint arXiv:1412.6572, 2014. **

雖然, 這些方法依賴於近似, 但是不復雜並且有效以及可擴展到高維度的數據集.

其他的基於梯度的白盒攻擊方法, 比如雅可比特性映射方法(JSMA–Jacobian Saliency Map Approach), C&W (Carlini & Wagner)方法以及DeepFool方法

**N. Papernot, P. McDaniel, S. Jha, M. Fredrikson, Z. B. Celik, and A. Swami, “The Limitations of Deep Learning in Adversarial Settings,” in European Symposium on Security and Privacy, 2016, pp. 372–387. **
**N.CarliniandD.Wagner,“TowardsEvaluatingtheRobustnessofNeural Networks,” in Symposium on Security and Privacy, 2017, pp. 39–57. **
**S.-M. Moosavi-Dezfooli, A. Fawzi, and P. Frossard, “Deepfool: a Simple and Accurate Method to Fool Deep Neural Networks,” in Conference on Computer Vision and Pattern Recognition, 2016, pp. 2574–2582. **

這些攻擊的快速版本, 比如FGSM和Step-LL, 將效率和速度進行交換

A. Kurakin, I. Goodfellow, and S. Bengio, “Adversarial Machine Learning at Scale,” arXiv preprint arXiv:1611.01236, 2016.

Moosavi-Dezfooli等人公式化了白盒攻擊, 並且概括了DeepFool來生成一個統一對抗擾動(UAPs–Universal Adversarial Perturbations): 通過圖片集的單一的對抗擾動來欺騙分類器

以上這些方法是根據梯度來進行對抗樣本的生成的, 但是由於神經網絡的複雜性, 利用梯度來構造對抗樣本是不足夠合理的, 可能找不到解, 不過在實際的某些任務上, 仍然可以用梯度方法來找到對抗樣本.

黑盒攻擊代表了更爲一般的場景, 特別是當機器學習算法被部署到真實世界中的時候. 很多實際的黑盒攻擊關注於對抗樣本的遷移性, Papernot等人觀察到對抗樣本在模型之間的遷移性, 並且基於此, 他們訓練一個**代理模型( surrogate model )**來進行分類任務, 對代理模型進行白盒攻擊, 使用所生成的對抗樣本來黑盒攻擊真實的模型.

N. Papernot, P. McDaniel, and I. Goodfellow, “Transferability in Machine Learning: From Phenomena to Black-box Attacks using Adversarial Samples,” arXiv preprint arXiv:1605.07277, 2016.
N. Papernot, P. McDaniel, I. Goodfellow, S. Jha, Z. B. Celik, and A. Swami, “Practical Black-box Attacks Against Machine Learning,” in Asia Conference on Computer and Communications Security, 2017, pp. 506–519.

爲了增強他們的攻擊, 還使用合成的辦法對數據集進行擴展.

Kurakin等人將其攻擊繼承到大圖片數據集ImageNet上面, 他們的結果是在最好的神經網絡模型上表現出60%的top1錯誤和50%的top5錯誤.

A. Kurakin, I. Goodfellow, and S. Bengio, “Adversarial Machine Learning at Scale,” arXiv preprint arXiv:1611.01236, 2016.

Moosavi-Dezfooli等人也基於ImageNet任務中, 探索了他們的UAP在不同神經網絡中的一般性, 使用遷移攻擊實現了74%的top 1錯誤.

**S.-M. Moosavi-Dezfooli, A. Fawzi, O. Fawzi, and P. Frossard, “Universal Adversarial Perturbations,” in Conference on Computer Vision and Pattern Recognition, 2017, pp. 86–94. **

當攻擊者只有少量的知識的時候, 上述方案看上去便不太實際, 而且遷移的特性是不被保證的.

其他的黑盒側重於使用大量的請求來估計目標分類函數, 但是容易被注意到並防禦下來.

利用梯度構造的對抗樣本, 其接近於分類器分類的邊界, 這對於複雜的數據集, 比如ImageNet數據集我們對於一張圖片至少需要訪問神經網絡1000次(ImageNet有1000個類別), 這是很難解決的. 基於決策的方法ZOO方法被提出.

W. Brendel, J. Rauber, and M. Bethge, “Decision-Based Adversarial Attacks: Reliable Attacks Against Black-Box Machine Learning Models,” arXiv preprint arXiv:1712.04248, 2017.
P.-Y. Chen, H. Zhang, Y. Sharma, J. Yi, and C.-J. Hsieh, “Zoo: Zeroth Order Optimization Based Black-box Attacks to Deep Neural Networks without Training Substitute Models,” in Workshop on Artificial Intelligence and Security, 2017, pp. 15–26.

很多這樣的黑盒攻擊並沒有考慮對於複雜神經網絡以及複雜的自然數據集的實際意義以及效率.

空域攻擊(Spatial Attack), 利用簡單的變換, 比如旋轉, 縮放等來生成對抗樣本, 實現了低次數的訪問以及取得了合理的成功, 對於標準的ResNet-50來說, 在ImageNet任務下, 實現了訓練集的70%的top-1錯誤以及50%的擴充訓練集的top-1錯誤.

**L. Engstrom, D. Tsipras, L. Schmidt, and A. Madry, “A Rotation and a Translation Suffice: Fooling CNNs with Simple Transformations,” arXiv preprint arXiv:1712.02779, 2017. **

該文的方法爲非空域攻擊, 在原始圖片上使用一種加性噪聲來構造對抗樣本.

正確地區分對抗樣本是很困難的, 但亦提出來一些檢測進行梯度混淆的對抗樣本的方法, Athalye等人以及Carlini等人提出了避免這種特殊攻擊的防禦手段.

A. Athalye, N. Carlini, and D. Wagner, “Obfuscated Gradients Give a False Sense of Security: Circumventing Defenses to Adversarial Examples,” arXiv preprint arXiv:1802.00420, 2018.
N. Carlini and D. Wagner, “Adversarial Examples are not Easily Detected: Bypassing Ten Detection Methods,” in Workshop on Artificial Intelligence and Security, 2017, pp. 3–14.

在現存的防禦手段中, 對抗性訓練展現了更爲一般性的魯棒性, Kurakin等人實現了對抗性訓練並且顯示其針對單步梯度攻擊的魯棒性.

A. Athalye, N. Carlini, and D. Wagner, “Obfuscated Gradients Give a False Sense of Security: Circumventing Defenses to Adversarial Examples,” arXiv preprint arXiv:1802.00420, 2018.
A. Kurakin, I. Goodfellow, and S. Bengio, “Adversarial Machine Learning at Scale,” arXiv preprint arXiv:1611.01236, 2016

Madry等人使用**投影梯度下降(PGD–ProjectedGradient Descent)**的方法, 並通過實驗說明了利用該方法生成樣本進行訓練, 能夠對於先序攻擊有一定適應性.

A. Madry, A. Makelov, L. Schmidt, D. Tsipras, and A. Vladu, “Towards Deep Learning Models Resistant to Adversarial Attacks,” arXiv preprint arXiv:1706.06083, 2017.

Tramer等人提出了全局對抗訓練(ensemble adversarial training), 利用其他模型生成的對抗樣本進行訓練, 能夠有效防範ImageNet的黑盒攻擊.

3. 程序化噪聲方法

該文章提出一種利用程序化噪聲來生成對抗樣本的方法, 所提出的方法和那些通過梯度不斷修改以至於到達分類器的邊界的方法不一樣, 上述方法需要對目標的模型有一定的瞭解.

使用一類現實和自然紋理來生成對抗樣本, 利用擾動對機器學習算法最終的結果產生不同. 程序化噪聲廣泛應用於計算機圖形學, 並且在電影和視頻遊戲中有大量的應用, 用來生成仿真的紋理來細化自然的細節, 進而增強圖像, 特別地, 比如玻璃, 樹木, 大理石和動畫(比如雲, 火焰和波紋)的紋理. 由於這些特徵, 假設程序化的噪聲可以容易地騙過圖片的分類算法, 並且給出的擾動和圖片的背景和前景都有着相似的地方.

這樣的噪聲方法被設計爲可以擴展到大圖片數據集上, 能夠很快進行分析並且實現低的內存使用. 這樣的方法是參數化的, 使用相同的函數可以生成不同的噪聲模式, 這樣的性質使得可以被用做實際的黑盒攻擊.

如果想要對程序化噪聲有更深刻的瞭解, 可以細看

A. Lagae, S. Lefebvre, R. Cook, T. DeRose, G. Drettakis, D. S. Ebert, J. P. Lewis, K. Perlin, and M. Zwicker, “A Survey of Procedural Noise Functions,” in Computer Graphics Forum, vol. 29, no. 8, 2010, pp. 2579– 2600.

A. 躲避分類器

作爲一種生成對抗樣本的方法, 需要解釋程序性噪聲是如何欺騙現存的圖片分類器的.

可以寬鬆地定義"自然紋理"來作爲圖片的擾動, 該擾動爲真實圖片的複製或者和自然模式有一些隱藏的結構相似性. 直覺是通過自然紋理對圖片進行覆蓋, 圖片分類器會對這些加上去的形狀和模式進行解釋並作爲特徵, 這些特徵將會影響最後的結果.

在合適的小的擾動之下, 生成的紋理將不會破壞原有的圖片, 並且欺騙分類器.

傳統的隨機噪聲, 比如高斯噪聲或者椒鹽噪聲, 都是像素級別的, 對於像素級別的噪聲對於神經網絡是沒有作用的, 原因是有卷積層和dropout來進行過濾, 另一方面, 複製自然圖片的基於特徵的噪聲幾何屬性和其他圖像是相似的. 由於現有的圖像分類器被訓練用於區分自然圖片, 基於特徵的噪聲更有可能去影響最後的預測效果.

許多基於梯度的方法都是尋找一些分類器決策邊界的幾何相關性, 假定通過紋理或者模式在圖片中也可以使用這種幾何相關性, 並實現有效的攻擊.

文章觀察到在UAP中的攻擊具有一些模式或者結構, 如下圖所示
UAP

這些模式或者結構對於人類是無法識別的. UAP吸引人的地方在於, 大量的圖片只使用同一個對抗擾動即可. 對於程序化的噪聲, 如同下圖的第三行
perlin noise

即生成一些和UAP相似的噪聲模式, 可以期望令程序化噪聲的模式和UAP有相似的屬性, 實現給定圖片集合中的一大部分的錯分類.

使用Perlin噪聲作爲程序化噪聲是由於其易於使用, 流行並且簡單, 雖然Perlin噪聲不是最有效或者無僞影的噪聲函數, 其簡單的實現對於低成本的黑盒攻擊而言十分有效.

Perlin噪聲是一種梯度噪聲, 梯度噪聲是利用一個僞隨機梯度的方格來生成的噪聲, 對這些點積然後插值得到噪聲.

Perlin噪聲的實現可以歸結爲三個步驟:

  1. 僞隨機梯度向量的方格定義
  2. 對距離-梯度向量進行點乘操作
  3. 在這些值之間進行插值

對於一個給定的點, perlin噪聲的值通過在方格上的最鄰近的2d2^d個點的僞隨機的梯度上進行樣條插值, 其中dd是圖像的維度. 樣條插值使用其平滑變化可以構造自然外觀的圖像, 因此區別於線性插值.

對於二維的圖像(d=2d=2), 在點(a,b)(a,b)上的噪聲通過以下方法進行推導:
(i,j)(i,j)爲方格的四個點, 其中i={a,a+1}i=\{|a|,|a|+1\}以及j={b,b+1}j=\{|b|,|b|+1\}, 那麼可以得到四個梯度gij=V[Q[Q[i]+j]]g_{ij}=V[Q[Q[i]+j]], 預計算的數組QQ是僞隨機的數組, VV包含一個僞隨機的排列和相應的僞隨機的單位梯度, 四個線性函數gij(ai,bj)g_{ij}(a-i,b-j), 然後通過利用s(aa)s(a-|a|)s(bb)s(b-|b|)雙線性插值, 其中s(t)=6t515t4+10t3s(t)=6t^5-15t^4+10t^3, 所得的結果就是Perlin噪聲值P(a,b)P(a,b),

在該文章中, 規定了其中的參數, 頻率ν\nu, 倍頻的數目ω\omega, 缺項kk, 頻率對應着臨近像素值的改變的速率, 它影響了圖片的視覺平滑性. 倍頻的數目則是與外加噪聲的多少有關, 缺項則是倍頻之間的頻率乘子, 如果該項越大則細節越多.

因此Perlin噪聲就變爲P(a,b;ν,ω,k)=n=1ωP(a,b;ν,ω,k)P(a,b;\nu, \omega, k)=\sum_{n=1}^{\omega}{P(a,b;\nu, \omega, k)}, 爲了便於記憶, 我們寫成P(a,b)=P(a,b;ν,ω,k)P(a,b)=P(a,b;\nu, \omega, k)

顏色映射(Colour Map)
顏色映射通常被用來在圖片的顏色和模式上來創造額外的變化, 顏色圖如何影響視覺外觀的一個例子可見上圖, 在本文中, 使用一個正弦函數和一個頻率參數νsine\nu_{sine}來映射顏色, 使用一個灰度顏色映射, 三通道的RGB也是一樣的, 犧牲噪聲的複雜性使得可以針對優化問題在一個更小的解空間裏面去搜索, 所需要優化的參數也變小了

我們用噪聲值vv定義它, 函數C(v)=sin(v2πνsine)C(v) = sin(v·2πν_{sine}). 正弦函數的週期性在圖像中產生不同的帶, 以實現類似於圖2中的對抗性擾動的外觀.

雖然這減少了我們可以探索的各種模式, 但是增加額外的複雜性需要更多的查詢才能使黑盒攻擊成功. 圖5示出了使用灰度正弦彩色圖足以用極少量的查詢來製作成功的攻擊. 同樣的推理適用於我們選擇的Perlin噪聲函數.

擴展性:
我們定義我們的生成函數GG, 它由Perlin噪聲和灰度正弦彩色映射組合而成, 在點(a,b)(a,b)的噪聲爲:
G(a,b)=C(P(a,b))=sin(P(a,b)2πνsine)G(a,b)=C(P(a,b))=sin(P(a,b)\cdot 2\pi\nu_{sine})
現在, 我們的參數爲θ={ν,ω,k,νsine}\theta=\{\nu, \omega, k, \nu_{sine}\}

我們的噪聲函數的這種可參數化特性極大地減少了對抗擾動的搜索空間. 我們不是在ImageNet上搜索整個圖像空間(最大可達268,203像素), 而是針對較小的搜索空間優化算法, 在我們的例子中是4個特徵. 功能數量的大幅減少極大地提高了攻擊的可擴展性和速度.

在限制性設置中, 可以應用像貝葉斯優化這樣的黑盒優化技術來進一步減少對目標模型的查詢數量. 在攻擊者旨在避免檢測的對抗設置中, 這是非常理想的.

4. 攻擊實現

在本節中, 我們定義了威脅模型並描述了Perlin噪聲攻擊. 威脅模型允許我們將黑盒攻擊置於上下文中, 並正式定義目標, 功能和約束. 儘管攻擊的形式與所考慮的數據類型或分類問題無關, 但產生的擾動旨在欺騙計算機視覺任務中的機器學習系統.

我們提出的攻擊是一種基於查詢的黑盒算法, 它利用了程序噪聲的屬性. 在選擇了具有參數θθ的程序噪聲函數GG之後, 我們首先創建圖像擾動以添加到原始“乾淨”圖像. 然後將使用此更改的圖像查詢目標模型. 如果攻擊不成功, 我們將使用貝葉斯優化更新我們後續的查詢θθ, 旨在優化攻擊者的目標函數.

A. 威脅模型

爲了使對抗能力和目標形式化, 我們還有一些額外的符號. 給定kk類和分類器FF的多分類問題, 讓F(x)F(x)爲輸入xx的輸出概率分數. 因此, F(x)F(x)kk維概率向量, 其中F(x)F(x), F(x)F(x)中的第ii個元素, 表示xx屬於類ii的概率.

當存在大量類時(例如, ImageNet數據集具有1,000個類標籤), 分類器的性能通常以“前nn個”精度來衡量, 即, 當正確的標籤在nn個最高概率分數中時. 設Tn(x)T_n(x)爲給定輸入xx的第nn個最高概率分數. 在n=1n = 1的情況下, 我們有T1(x)=argmaxiFi(x)T_1(x)= argmax_i F_i(x), 它是分類器對xx的預測標籤. 設τ(x)τ(x)表示對象xx的真實標籤. 當Fτ(x)(x)<Tn(x)F_{τ(x)}(x)<T_n(x)時, 出現前n個逃避, 其中“逃避”指的是目標分類器無法預測n個最高概率分數內的真實標籤的情況.

GG是對抗者選擇的生成噪聲函數, θθ是其參數. 我們將G(θ)=δG(\theta)=δ定義爲所得的對抗擾動, 即應用於每個像素座標以生成整個圖像的函數GG. 我們將對側示例x0x_0表示爲輸入xx和生成的對抗擾動δδ之和, 即x0=x+δx_0 = x +δ.

對手知識
目標模型是一個已經完成學習的黑盒分類器. 我們假設攻擊者沒有目標分類器的內幕知識, 例如其學習算法, 訓練數據和模型設置. 雖然對手知道分類器的輸入, 輸出和類標籤的數據類型.

對手能力
攻擊者可以使用任何輸入x查詢目標分類器F, 並且知道這些輸入的真實類標籤τ(x). 在某些情況下, 圖像分類器提供概率向量作爲輸出, 以顯示分類器的置信度和替代預測. 因此, 對手可以觀察輸出類概率F(x)是合理的. 我們還考慮了這種概率輸出向量不可用的情況.

對手目標
在給定合法輸入的情況下, 對手希望在目標分類器中產生Top n evasion, 因爲有限的預算會增加原始輸入的擾動. 對手的主要目標是通過降低具有對抗性示例x0x_0的真實類別標籤Fτ(x)(x0)F_{τ(x)}(x_0)的概率來實現錯誤分類. 當真正的輸入xx已經錯誤分類時, 這是微不足道的. 與[21]類似, 我們專注於不分青紅皁白而非目標錯誤分類, 儘管我們的攻擊方法可以應用於兩者.

攻擊者在最大限度地減少用於製造攻擊的擾動的約束是根據原始輸入x和頭部對側輸入x0x_0之間的一些距離度量d(x,x0)d(x,x_0)來定義的. 這相當於限制擾動δ||δ||的範數, 其中x0=x+δx_0 = x +δ. 這種擾動幅度的上限允許我們爲攻擊者建模可檢測性約束. 我們還通過限制攻擊者的查詢數量來強加進一步的可檢測性限制. 這是因爲在實際情況下, 大量類似的請求會引起懷疑並且可以檢測到攻擊者. 儘管在一些有關黑盒攻擊的相關工作[23], [25], [44]中已經提到了對查詢數量的限制, 但在大多數情況下並未考慮這種限制.

B. 目標函數

我們現在可以定義用於生成對抗性示例的約束優化問題. 給定具有k類的學習分類F, 對手具有他們想要改變的輸入x, 使得新輸入x0 = x +δ被F的前n個誤分類, 對距離||δ||<ε和數量的約束, 查詢q <qmax.

與相關工作一致, 我們假設我們的擾動預算ε足夠小, 因此它不會以顯着的方式在視覺上修改圖像, 並且對於任何生成的x0, 原始標籤都保留τ(x0)=τ(x)=x+δτ(x_0)=τ(x) = x +δ. 該算法的目標是在參數θ上優化我們選擇的生成函數G, 因此我們在目標函數中用δ(θ)代替δ. 當Fτ(x0)(x0)&lt;Tn(x0)F_{τ(x_0)}(x_0)&lt;T_n(x_0)時發生前n個逃避, 因此優化問題的形式如下:
target function

對於所考慮的圖像分類數據集, 我們將像素值標準化爲[0,1]. G(θ)和x + G(θ)的分量分別被剪切爲[-ε, ε]和[0,1]以滿足這些約束. 對於前n個逃避, 我們的目標函數小於0是足夠的. 因此, 我們的算法的停止條件是Fτ(x)(x+G(θ))Tn(x+G(θ))&lt;0F_{τ(x)}(x + G(θ)) - T_n(x + G(θ))&lt;0

C. 貝葉斯優化

貝葉斯優化是一種基於序列模型的優化算法, 主要用於在黑盒設置中有效地找到最優參數θ[27], [28]. 事實證明, 該技術可以有效地解決各種問題, 如超參數調整, 強化學習, 機器人和組合優化[50].

貝葉斯優化由兩部分組成, 首先是概率代理模型, 通常是高斯過程(GP), 第二是指導其查詢的獲取函數. 該算法使用此獲取功能來選擇輸入以查詢目標分類器並觀察輸出. 然後更新統計模型的先驗信念以產生函數的後驗分佈, 其在給定觀察數據的情況下更具代表性. 一旦最佳目標函數值停止改進或算法達到最大迭代次數(查詢)[50], 算法就會停止. 該算法具有查詢效率, 因爲它在其更新的後驗中使用過去查詢提供的所有信息, 同時還考慮了關於目標函數的模型的不確定性.

高斯過程
貝葉斯優化的第一個組成部分是我們目標函數的概率替代模型. GP是對函數分佈的高斯分佈的推廣, 通常用作貝葉斯優化的替代模型[51]. 我們使用GPs, 因爲它們引起了對分析易處理的目標函數的後驗分佈. 這使我們能夠在每次迭代後更新我們對目標函數的看法[28].

GP是一個非參數模型, 完全由先驗均值和正定的核函數來描述[50]. 正式地, GP是隨機變量的集合, 其中任何有限數量形成高斯分佈. 非正式地, 它可以被認爲是具有無限長矢量的隱藏(未知)函數, 並且GP描述其分佈, 類似於如何通過n維高斯分佈來描述一組n維矢量.

GP對豐富的函數分佈進行建模的能力取決於其核函數, 該函數控制函數分佈的重要屬性, 如平滑度, 可微分性, 週期性和幅度[50], [51]. 目標函數的任何先驗知識都在內核的超參數中編碼. 但是, 由於對手幾乎不瞭解目標模型, 因此對手必須採用更通用的核函數[28].

內核函數的常見選擇包括自動相關性確定(ARD)平方指數和Mat’ern內核. 對於我們的實驗, 我們遵循Snoek等人的觀點. [28]在選擇Mat’ern 5/2內核時, 他們聲稱像ARD這樣的其他常見選擇對於實際優化問題是不切實際的平滑[28]. Mat’ern 5/2內核產生兩次可微分函數, 這一假設與流行的黑盒優化算法(如準牛頓方法, 不需要ARD的平滑性)相對應.

獲取函數
貝葉斯優化中的第二個組件是一個獲取函數, 它描述了查詢的最佳性. 直觀地, 採集函數評估候選點在下一次評估中的效用, 並且通常將其定義爲使得高採集對應於目標函數的潛在最優值[52].

獲取函數必須平衡探索和利用之間的權衡. 探索尋求高方差區域, 即目標函數值不確定性較高的區域. 剝削尋找目標函數的不確定性和估計平均值較低的地方[50], 即模型與目標函數的估計值相關. 太少的探索可能會使其陷入局部極值, 而太多的探索並未充分利用所做的觀察.

考慮到黑盒設置, 我們選擇通用的採集功能. 兩種最受歡迎的選擇是優化預期改進(EI)或高斯過程上限(UCB). EI和UCB都被證明在真正的黑盒優化問題中是有效的和數據有效的[28]. 然而, 大多數工作已經發現EI收斂接近最優, 不需要調整自己的參數, 並且在一般情況下比UCB表現更好[28], [50], [52]. 這使得EI成爲我們收購功能的最佳候選人.

D. 參數選擇

在本節的其餘部分, 我們將討論如何選擇參數(θ), 邊界(ε, qmax)和度量(||·||). 我們還概述了參數優化策略, 同時考慮了我們的威脅模型.

參數邊界
如前面部分所述, G的參數是θ= {ν, ω, κ, νsine}, 即:Perlin噪聲函數的頻率, 倍頻的數量, 缺項和正弦顏色映射函數的頻率. 優化這些參數需要我們首先確定它們的邊界, 超出這些邊界的變化不會影響所得圖像的外觀.

網格搜索標識當參數值被擾動時所生成的噪聲繼續具有顯着變化的範圍. 這些範圍將是參數的搜索邊界. “明顯的變化”是通過視覺檢查和“2下降範圍”來衡量的. 我們鬆散確定的邊界是ν∈[20,80], ω∈{1,2,3,4}, κ∈[1.7,2.2]和νsine∈[2,32].

參數優化

  • 隨機. 我們隨機選擇噪聲函數的參數. 這用作基線性能並且對應於非自適應攻擊, 其中對手不接收反饋或者不能訪問目標模型的輸出概率. 更多查詢導致發現一組實現逃避的參數的可能性更高. 在這種情況下, 攻擊者不需要訪問F(x)中每個標籤的概率, 而只需要訪問前n個類的標籤.
  • 貝葉斯優化. 我們使用具有Mat’ern 5/2內核的高斯過程來選擇參數, 以對可能的目標函數放置先驗信息, 然後通過在每次查詢之後更新後驗來依次重新確定參數的選擇. 我們使用預期改進(EI)獲取功能來指導下一個查詢. 後驗代表了觀察到的數據點的更新信念[50].

由於對查詢數量的限制, 諸如網格搜索和基於梯度的優化之類的詳盡且查詢密集的超參數搜索方法是不可行的. 我們只選擇貝葉斯優化作爲查詢效率參數選擇策略.

最大查詢數
通過我們的生成函數可以實現對逃避的實現, 因此我們設置最大預算qmax以將查詢數量保持在合理的範圍內. 對於貝葉斯優化, 高斯過程迴歸中的精確推斷是O(q3), 其中q是觀察或查詢的數量. 該成本是由於在更新後驗時協方差矩陣的反演. 由於這個限制, 並且基於我們的初步實驗, 我們設置qmax = 100.這個上限被證明是足夠的, 因爲實驗表明攻擊者在q接近這個qmax之前的性能平穩. 我們可以通過稀疏GP來降低計算複雜度[53], [54], 這提供了估計精度和可擴展性之間的權衡. 然而, 鑑於攻擊的有效性, 標準GP對我們來說是一個非常合適的選擇.

距離度量
距離度量是用於量化圖像之間的相似性的有用啓發法. 通常的度量標準是“p”範數, 因爲如果圖像的差異r滿足||r|| <ε, 那麼圖像在視覺上是相似的, 以獲得足夠小的ε. 對於∞範數, 任何座標之間的最大可能差異是由ε限制的, 因此我們對所有點都有||ri|| <εi. 由於其像素方式構造, 我們的噪聲函數最好用∞範數測量. 對於ImageNet數據集, 我們遵循先前研究[20]和[21]中的∞≤16/256的∞範數上界

5. 實驗和結果

A. 實驗設置

我們進行了兩次實驗來測量Perlin噪聲攻擊的性能. 在第一個實驗中, 我們一次攻擊一個圖像, 目的是儘可能多地規避. 在第二個實驗中, 我們的目標是找到一組“強大的”Perlin噪聲設置(擾動), 可以在儘可能多的圖像中欺騙分類器. 在本節中, 我們將詳細介紹模型體系結構, 訓練方法, 我們使用的攻擊以及我們如何評估攻擊性能.

模型
我們使用經過預先訓練的ImageNet模型[19], 它們具有Inception v3 [55]和Inception ResNet v2 [56]架構. 這些模型實現了最先進的性能, 在標準數據集上訓練時, 前5個損失精度分別爲6.1%和4.8%. 這些網絡將尺寸爲299×299×3的圖像作爲輸入.

我們還採用了更強大的Inception ResNet v2的對抗訓練版本:Tramer等. [21]按照[20]的方法對抗Inception ResNet v2, 該網絡將被稱爲IRv2adv. 然後他們使用整體對抗訓練來進一步開發他們自己的模型, 我們將其稱爲IRv2adv-ens. 有關對抗和整體對抗訓練過程的完整細節, 我們請讀者參考[20]和[21]. 從[21]中獲取模型使我們能夠更好地與使用現有針對ImageNet分類器的快速攻擊的結果進行比較:FGSM, Step-LL和Iter-LL.

個體攻擊
在我們的第一個實驗中, 我們對來自驗證集的1,000個隨機圖像進行每個圖像的攻擊, 每個圖像的預算最多爲100個查詢.

我們測試三種不同的攻擊方法. 首先是逐像素隨機噪聲擾動來設置生成對抗性示例的基線, 我們將其稱爲隨機. 在∞範數約束內隨機均勻地選擇像素的圖像噪聲值. 如果我們的攻擊性能並不比這個隨機噪聲好, 那麼我們不認爲它是一種有效的攻擊.

我們接下來的兩次攻擊使用Perlin噪聲, 如上一節所述. 兩種變化之間的差異在於參數選擇算法. 第一次攻擊將使用隨機選擇的參數生成函數, 我們稱之爲Perlin-R. 給定單個圖像, 我們迭代隨機參數設置, 直到該圖像被規避.

第二次攻擊利用貝葉斯優化來選擇生成函數的參數, 我們將其稱爲Perlin-BO. 給定單個圖像, 我們使用貝葉斯優化更新我們的參數選擇, 直到該圖像被迴避. 這種攻擊是自適應的, 允許更有效的查詢.

通用攻擊
在我們的第二個實驗中, 我們的目標是找到強大的對抗性Perlin噪聲設置, 這些設置可以在整個驗證集中進行推廣. 這些攻擊在來自驗證集的8,000個隨機圖像上進行評估.

我們測試了兩個Perlin噪聲攻擊, Perlin-R和PerlinBO. 參數選擇算法與第一個實驗類似, 但每個攻擊的性能都是在所有驗證圖像上測量的. 對於Perlin-R, 我們迭代1000個隨機Perlin噪聲設置, 並測量所有驗證圖像上每個設置的錯誤率. 由於Perlin-R不使用其他信息, 因此攻擊無需更改.

對於Perlin-BO, 我們使用貝葉斯優化來發現強烈的Perlin噪聲擾動, 從而最大化錯誤分類的驗證圖像的數量. 我們將圖像數據集分成兩個獨立的部分, 用於培訓和評估階段. 實際上, 這對應於校準和攻擊階段. 訓練集將針對不同大小進行測試, 範圍從10到2,000個圖像, 預算爲50次迭代, 用於貝葉斯優化. 貝葉斯優化的目標函數將是最大化訓練集中錯誤分類的圖像數量. 在評估階段, 我們測量驗證圖像上產生的“最佳”Perlin噪聲設置的錯誤率.

評價標準
攻擊性能使用前1和前5錯誤率來衡量. 這些被評估爲小於或等於ε=16/256ε= 16/256的∞範數擾動約束. 相應Clean數據集上的分類器的錯誤率被用作參考. 對於單個攻擊, 我們在幾個ε和qmax設置中比較此錯誤率. 我們後來將我們的結果與[21]及其對這些分類的FGSM和Step-LL攻擊進行了比較.

B. 個體的Perlin噪聲攻擊

我們得到的結果已經報告在表I中. 儘管自然圖像的誤差很小, 並且對隨機擾動具有合理的性能, 但是對於我們的Perlin噪聲對抗性示例, 分類器具有顯着更高的誤差.
個體Perlin攻擊

最脆弱的目標模型在所有圖像上成功迴避. 在最壞的情況下, Inception v3在清潔圖像上的前1錯誤爲21.8%, 對PerlinBO有100%的錯誤. 在模型中, IRv2adv-ens中最強大的, 在清晰圖像上的前1個誤差爲20.6%, 對Perlin-BO爲89.5%, 效果不是很好. Perlin噪聲對抗性的例子.

對於前5個錯誤, 分類更好, 因爲更容易做出正確的前5個預測. 然而, 對於所有類別的圖像幾乎一半的對抗性示例仍然會出現錯誤分類. 在最糟糕的情況下, Inception v3在清潔圖像上的前5個誤差爲7.5%, 對Perlin-BO的前5個誤差爲71.2%. 最強大的分類器IRv2adv-ens在乾淨圖像上有5%的前5個誤差, 對Perlin-BO有45.2%的誤差.

分類器的比較
Inception ResNet v2神經網絡比Inception v3神經網絡更具彈性, 與[21]的結果一致. 這可以歸因於具有更多參數和層的網絡. 在Inception ResNet v2網絡中, 對抗和整體訓練略微提高了其對抗Perlin噪聲攻擊的穩健性. 這種邊際改進可以歸因於在增強數據集上訓練的分類器, 其中圖像包含結構化的對抗性噪聲. 但是, 我們注意到這些改進僅爲Perlin噪音攻擊提供了邊際防禦.

攻擊性的比較
Perlin噪聲攻擊都大大優於像素隨機攻擊. 最強大的攻擊是Perlin-BO, 但Perlin的兩次噪聲攻擊都會對分類器造成嚴重的錯誤率.

對於整體性能, Perlin-BO優於Perlin-R. 這是合理的, 因爲前者使其查詢適應輸出而後者不適應. 然而, Perlin-BO優於Perlin-R的優勢在於前1個錯誤比前5個錯誤更大. 他們的前5個錯誤之間的差距非常小, 所有結果的差距不到5個百分點. 這表明我們使用的程序性噪聲函數受限於它能夠以多大的精度逃避目標分類器的程度. 我們假設可以通過爲生成函數添加更多複雜性來改進這一點.

從理論上講, Perlin-BO優於Perlin-R的主要優點是它可以使用較少的查詢來實現規避. 但是, 在比較前5個錯誤與查詢數量時, 這一點並不明顯. 如圖2中的第二個圖所示, 對於前5個誤差, Perlin噪聲攻擊的性能沒有太大分離. 這個結果可能歸因於增加前5個誤差的困難以及我們選擇的程序噪聲函數的簡單性. 我們假設我們當前的Perlin噪聲攻擊已經達到了這個設置中前5個誤差的最佳可能性能.

當控制ε時, 攻擊在較低的擾動預算中自然不太有效, 如圖4所示. 這阻礙了我們的攻擊, 因爲它限制了我們產生的Perlin噪聲的空間. 對於ε= 4/256, 我們的Perlin噪聲攻擊幾乎不會對隨機噪聲產生影響, 特別是對於前5個誤差. 這種性能差距並不顯着, 這意味着我們的攻擊在這種極其嚴格的限制環境中無效. 之後, Perlin噪聲攻擊得到改善, Perlin-BO的性能從ε≥8/256處起飛. 實際上, 較小的ε擾動預算導致更具說服力的對抗性示例, 因爲對原始圖像的篡改並不明顯. 即使有更嚴格的ε, Perlin攻擊也會導致50%或更多的前1個錯誤.

攻擊性比較

查詢次數的比較
在圖5中, 我們觀察到分類錯誤在第一個5到10個查詢中顯着增加, 並且改進開始在大約20個查詢時減慢. 前者顯示了分類的脆弱性, 因爲對抗性的Perlin噪聲攻擊的初始查詢足以導致錯誤分類.

隨着查詢數量的增加, 性能有一個穩定的基礎, 這表明我們基本的Perlin噪聲攻擊的有效性的理論上限, 考慮到它的設置和約束. 以Perlin-BO爲100個查詢作爲我們的上限, 我們觀察到Perlin-R和Perlin-BO在他們的前幾個查詢(20以下)中接近這個上限. 注意Perlin-BO如何比PerlinR更均勻或更差, 但是在超過10個查詢時它會超過它. 由於攻擊在100次查詢之前的性能水平很高, 因此不需要更大的查詢預算.

我們的初步結果表明神經網絡對Perlin噪聲攻擊非常脆弱. 這很明顯, 對於大部分圖像, 我們成功的對抗性示例僅使用少量查詢(少於20個)生成. 相比之下, 其他不可轉移的黑盒攻擊, 如[12], [22], [23], 需要數千個查詢來逃避ImageNet中的單個圖像. 即使使用隨機非自適應Perlin-R攻擊, 我們也可以在幾個查詢中達到上限. 這進一步證明了測試分類器對Perlin噪聲對抗性實例的不穩定性.

這些結果提出了單個Perlin噪聲攻擊在多個圖像中作爲對抗擾動的概括性的問題. 給定一組固定的參數θ, 我們想要知道所有圖像中所得到的對抗擾動G(θ)的逃逸率. 另外, 我們想知道這種情況發生的程度, 以及我們是否可以找到一組最佳參數來逃避給定分類器的最大數量的圖像.

C. 通用的Perlin噪聲攻擊

通用perlin

Perlin-R
我們測試了1,000個隨機選擇的Perlin噪聲設置並在我們的驗證集上評估了它們的性能. 清潔圖像上分類器的前1和5錯誤分別約爲20%和6%.

對於前1個錯誤, 圖6顯示Perlin噪聲在所有分類器中達到至少26%的誤差. 因此, 分類器非常脆弱, 因爲每個隨機選擇的Perlin噪聲設置本身就是對大部分圖像的有效對抗擾動. 對於對側訓練的模型IRv2adv和IRv2adv-ens, 至少有一半的Perlin噪聲設置達到最小40%的誤差. 同樣, 至少有一半的Perlin噪聲攻擊分別對IRv2和v3分類器至少有50%和60%的誤差.

應該強調的是, 單一擾動會導致這種規模的錯誤分類. 對於IRv2adv和IRv2adv-ens, 實驗中最佳單個Perlin噪聲擾動所達到的最大誤差爲約52%, 而對於IRv2和v3, 該數值分別爲約62%和76%. 這些對抗性擾動的普遍性是顯着的, 特別是隨着這些Perlin噪聲設置的隨機選擇.

對於前5個錯誤, 結果並不像通常情況下的結果那樣明顯. 儘管如此, 結果仍然認爲至少有一半的Perlin噪聲設置將導致所有分類圖像的至少一個圖像的錯誤分類, 如圖6所示.

Perlin-BO
在這裏, 訓練或驗證階段使用貝葉斯優化來進行單一的Perinnoise擾動, 從而最大化從訓練數據集中逃避的圖像數量. 我們最初認爲擁有更大的訓練集會使驗證集上的性能顯着提高. 但是, 我們的結果表明, 相對於訓練集大小, 改進是遞增的. 這具有顯着的意義, 因爲黑盒對手可以通過較小的訓練集實現類似的攻擊性能, 這意味着校準攻擊所需的數據和查詢更少

BO

我們在表II中顯示了IRv2分類器的所有訓練集大小的完整結果. 其他分類的尺寸差異很大, 因此我們不在此處加以說明.

與不同訓練集合大小相關的差異最多爲7個絕對百分點. 這與訓練集之間的差異形成鮮明對比, 訓練集之間的差異是彼此相比的2到200倍. 結果的差異可歸因於Perlin-BO對訓練數據的過度擬合, 對於較小的訓練集, 這一點更爲明顯. 儘管有這樣的解釋, 結果仍然在一個狹窄的範圍內. 我們的驗證集中的圖像和標籤分佈非常均勻, 因此結果的相似性表明, 除了可能導致逃避的常見Perlin噪聲模式之外, 所有類別的共同點都存在.

在表III中, 我們關注的是100個樣本的中等訓練集. 此設置可平衡攻擊性能和查詢數量. 我們看到Perlin噪聲設置的一小部分實現了類似於我們廣義Perlin-BO攻擊的性能. 例如, Perlin-BO在分類器v3上實現了59.1%的前5個逃避, 而圖6中的Perlin-R結果表明, 在相同的分類器中, 不到2%的Perlin噪聲設置達到至少58%的前1個逃避

測試結果

由於Perlin-BO和Perlin-R的結果具有相似性, 因此可以合理地假設這是我們選擇的程序噪聲函數中最強的對抗性擾動. 然而, 這可以通過更復雜的生成函數來改進.

D. 相關工作的對比

對低維數據集(如MNIST和CIFAR)的攻擊在文獻中更爲突出. 其中許多攻擊也是白盒, 或者不容易擴展到大型圖像數據集. 此外, 這些攻擊通常需要每個圖像多達數千次迭代, 如[22]和[23]. 我們的工作處於不同的環境中, 具有更現實的約束.

現有的黑盒攻擊對查詢來說是無效的; 那些提高效率的人依賴於可轉移性, 這就是一個更強大的對手. 儘管這些攻擊在[20]和[25]中相對成功, 但它們仍然會產生構建和訓練替代模型的額外開銷. 它不僅成本高昂, 特別是對於大型數據集, 而且還需要訪問類似的數據集和與目標模型相當的模型.

可轉移性攻擊使用快速梯度方法快速生成對抗性示例. 通常, 在通過重試執行可轉移性時, 每個樣本需要一些查詢. 我們考慮的攻擊是FGSM, Step-LL, R + StepLL, 以及[20]和[21]中所示的兩步Iter-LL. 作爲參考, 我們還將我們的結果與這些快速梯度攻擊的白盒版本進行比較. 我們將這些攻擊組稱爲“快速漸變攻擊”(FGA), 並在用作白盒(FGA-W)和黑盒(FGA-B)攻擊時進行區分.

爲了比較, 我們在FGA的相同分類中使用[21]的結果. 爲了補償測試數據集的變化, 我們比較了乾淨圖像錯誤率與攻擊產生的錯誤率之間的差異. 由於網絡具有相同的權重並且測試圖像來自相似的分佈, 因此在95%的置信區間內結果的差異應該可以忽略不計.

我們將現有方法與我們個別的Perlin噪聲攻擊進行比較, 因爲它們旨在最大化每個圖像的規避, 而廣義版本的目的是找到避開許多圖像的單個擾動. 表IV中報告的結果表明, Perlin噪聲攻擊均顯着優於基於可轉移性的黑盒攻擊FGAB. 應該注意的是, 對抗性和整體對抗性訓練被設計爲對抗FGAB的防禦, 因此IRv2adv和IRv2adv-ens的這個結果應該不足爲奇. 如前所述, 對抗性訓練使得這些分類訓練略微好一點, 但對於Perlin噪音攻擊並沒有那麼明顯.

兩種Perlin噪聲攻擊都比快速白盒攻擊更好. 對於FGA-W, 應該注意的是, IRv2adv經過對抗訓練可以直接抵禦白盒攻擊, 並且IRv2adv-ens上的整體訓練並沒有使他們的模型對FGA-W具有魯棒性[21]. 特別是Perlin-BO攻擊, 即使我們考慮90%的置信區間, 也能通過顯着的邊緣獲得更好的結果. 同樣有趣的是, Perlin-R實現了與白盒攻擊相當或更好的結果, 因爲它的參數選擇完全是隨機的.

關於查詢效率, FGA-B消除了我們的Perlin噪聲攻擊, 因爲代理模型允許他們在查詢目標模型之前重新確定其對抗性示例. 然而, Perlin噪聲攻擊能夠在每個圖像的前10個查詢中導致其 大部分逃逸, 這對於黑盒攻擊來說是相當低的. 通過使用Perlin-BO的通用版本創建可轉移性攻擊, 還可以將查詢數量大大減少到類似於FGA-B的級別.

我們假設我們的Perlin噪聲攻擊利用了學習算法中的固有弱點以及它們對圖像中模式的解釋. 相比之下, 諸如FGA的現有方法主要關注基於梯度的優化以解決目標函數. 由於高維度, 基於梯度的算法變得難以解決, 計算成本昂貴, 並且可能陷入局部最優的口袋中.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章