聯邦學習 深度學習對抗攻擊

 

聯邦學習本身
“聯邦學習” 實際上是一種加密的分佈式機器學習技術,參與各方可以在不披露底層數據和底層數據的加密(混淆)形態的前提下共建模型。
如果機構之間的數據無法互通,一家企業一家機構數據量有限,或者是少數巨頭公司壟斷大量數據,而小公司很難獲得數據,形成大大小小的“數據孤島”。在這種沒有權限獲得足夠多的用戶數據的情況下,各個公司尤其是小公司,如何建模?

在這種情況下,“聯邦學習”的概念應運而生。所謂 “聯邦學習”,首先是一個“聯邦”。不同於企業之前的“各自爲政”,擁有獨立的數據和獨立的模型,聯邦學習通過將企業、機構納入“一個國家、一個聯邦政府” 之下,將不同的企業看作是這個國家裏的 “州”,彼此又保持一定的獨立自主,在數據不共享的情況下共同建模,提升模型效果。所以“聯邦學習” 實際上是一種加密的分佈式機器學習技術,參與各方可以在不披露底層數據和底層數據的加密(混淆)形態的前提下共建模型。
Google 公司率先提出了基於個人終端設備的“橫向聯邦學習”(Horizontal Federated Learning),其核心是,手機在本地進行模型訓練,然後僅將模型更新的部分加密上傳到雲端,並與其他用戶的進行整合。目前該方法已在 Google 輸入法中進行實驗。一些研究者也提出了 CryptoDL 深度學習框架、可擴展的加密深度方法、針對於邏輯迴歸方法的隱私保護等。但是,它們或只能針對於特定模型,或無法處理不同分佈數據,均存在一定的弊端。
在國內,聯邦技術的研究由微衆銀行首席人工智能官(CAIO)楊強教授帶領微衆銀行 AI 團隊主導,並且首次提出了基於 “聯邦學習” 的系統性的通用解決方案,強調在任何數據分佈、任何實體上,均可以進行協同建模學習,解決個人 (to C) 和公司間 (to B) 聯合建模的問題,開啓了將聯邦學習技術進行商用,建立聯邦行業生態的探索。
對抗攻擊中的一些術語:
對抗圖像/對抗樣本(Adversarial example/image):
對抗樣本是對乾淨圖像進行處理後的樣本,被故意擾亂(如加噪聲等)以達到迷惑或者愚弄機器學習技術的目的,包括深度神經網絡。
對抗擾動(Adversarial perturbation):對抗擾動是添加到乾淨圖像中的噪聲,使其成爲一個對抗樣本。
對抗性訓練(Adversarial training):對抗性訓練使用除了乾淨的圖像之外的對抗樣本來訓練機器學習模型。
對手(Adversary):對手通常指創建一個對抗樣本的代理。但是在某些情況下,我們也稱對抗樣本本身爲對手。
黑盒攻擊(Black-box attacks):黑盒攻擊是在不瞭解一個目標模型的具體情況下,針對該模型,生成了對抗樣本(測試階段)。在某些情況下,假設對手對模型的瞭解有限(例如,它的訓練過程或者架構),但絕對不知道模型參數。在其他情況下,使用任何關於目標模型的信息稱爲半黑盒攻擊。這篇文獻使用前一種約定。
白盒攻擊(White-box attacks):白盒攻擊假設具備了目標模型的完整知識,包括其參數值、體系結構、訓練方法,在某些情況下還包括訓練數據。
檢測器(Detector):檢測器是一種(僅)檢測圖像是否爲對抗樣本的機制。
欺騙率(Fooling ratio/rate):欺騙率表示在圖像被擾動後,經過訓練的模型改變其預測標籤的百分比。
一次性/單步方法(One-shot/one-step methods):一次性/單步法通過執行單步計算產生對抗性擾動,例如計算一次模型的損失梯度。與之相反的是迭代方法( iterative methods),它多次執行相同的計算以得到一個單獨的擾動。後者的計算成本通常很高。
近似無法察覺(Quasi-imperceptible):近似無法察覺擾動從人類感知而言對圖像影響很小。
修正器(Rectifier):修正器修改一個對抗樣本來恢復這個目標模型的預測結果同該樣本未擾動前的預測。
針對性攻擊(Targeted attacks):有針對性的攻擊欺騙了一個模型,使對抗性圖像錯誤地預測成特定標籤。它們與非目標攻擊相反,在非目標攻擊中,被預測的對抗圖像的標籤是無關的,只要它不是正確的標籤。
威脅模型(Threat model):威脅模型指的是一種方法所考慮的潛在攻擊類型,例如黑盒攻擊。
可轉移性(Transferability):可轉移性指的是一個對抗樣本具有可轉移能力,即使是除了用來產生它的模型以外,它仍然有效。
通用擾動(Universal perturbation):通用擾動能夠在任何圖像上擾動並高概率欺騙一個給定模型。值得注意的是,通用性指的是一種與圖像無關的擾動性質,區別於有很好的可轉移性。
現有攻擊方法(實驗室)
針對分類階段
Box-constrained L-BFGS
Szegedy等人首次證明了可以通過對圖像添加小量的人類察覺不到的擾動誤導神經網絡做出誤分類。他們首先嚐試求解讓神經網絡做出誤分類的最小擾動的方程。但由於問題的複雜度太高,他們轉而求解簡化後的問題,即尋找最小的損失函數添加項,使得神經網絡做出誤分類,這就將問題轉化成了凸優化過程。下面爲圖例:

Fast Gradient Sign Method (FGSM)
Szegedy 等人發現可以通過對抗訓練提高深度神經網絡的魯棒性,從而提升防禦對抗樣本攻擊的能力。GoodFellow[23] 等人開發了一種能有效計算對抗擾動的方法。而求解對抗擾動的方法在原文中就被稱爲 FGSM。FGSM方法證實了現代深層神經網絡的設計的高維線性性。
Kurakin等人提出了 FGSM 的「one-step target class」的變體。通過用識別概率最小的類別(目標類別)代替對抗擾動中的類別變量,再將原始圖像減去該擾動,原始圖像就變成了對抗樣本,並能輸出目標類別。
學者們還試驗了利用不同的範式進行歸一化後的結果進行生成對抗樣本。
Basic & Least-Likely-Class Iterative Methods
one-step 方法通過沿一方向做一大步運算,增大分類器的損失函數而進行圖像擾動,這個想法的一個直觀的擴展爲通過多個小步增大損失函數的變體,從而我們得到 Basic Iterative Methods(BIM)。而該方法的變體和前述方法類似,通過用識別概率最小的類別(目標類別)代替對抗擾動中的類別變量,而得到 Least-Likely-Class Iterative Methods(ILCM),由該方法生成的對抗樣本已經讓Inception v3模型受到了嚴重影響
Jacobian-based Saliency Map Attack (JSMA)
對抗攻擊文獻中通常使用的方法是限制擾動的l∞或l2範數的值以使對抗樣本中的擾動無法被人察覺。但 JSMA提出了限制擾動的l0範數的方法來產生對抗性攻擊。在物理上,這意味着目標是隻修改圖像中的幾個像素,而不是擾亂整個圖像來欺騙分類器。
算法生成所需的對抗性圖像的關鍵可以理解如下。該算法一次修改一個乾淨圖像的像素,並監測變化對結果分類的影響。通過使用網絡層的輸出的梯度來計算一個顯著性圖來執行監控。在這張圖中,一個較大的值顯示出了一個較高的可能性預測成目標類別,而非正確的類別。因此,該算法執行有針對性的欺騙。一旦計算出像素圖,算法選擇最有效的像素來欺騙網絡並改變它。這個過程會重複,直到最大允許的像素數量在對抗性圖像中被改變或者在欺騙成功。
One Pixel Attack https://arxiv.org/abs/1710.08864
這是一種極端的對抗攻擊方法,僅改變圖像中的一個像素值就可以實現對抗攻擊。Su等人使用了差分進化算法,對每個像素進行迭代地修改生成子圖像,並與母圖像對比,根據選擇標準保留攻擊效果最好的子圖像,實現對抗攻擊。這種對抗攻擊不需要知道網絡參數或梯度的任何信息。下面爲圖例:

Carlini and Wagner Attacks (C&W)
Carlini 和 Wagner[36] 提出了三種對抗攻擊方法,通過限制 l∞、l2和l0範數使得擾動近似無法被察覺。該算法生成的對抗擾動可以從 unsecured 的網絡(沒有蒸餾)遷移到 secured 的網絡(蒸餾)上,從而實現黑箱攻擊。
受C&W啓發,有學者提出了Zeroth Order Optimization (ZOO)方法,直接估計目標模型的梯度來生成對抗樣本。
DeepFool
Moosavi-Dezfooli 等人通過迭代計算的方法生成最小規範對抗擾動,該算法通過一個小的向量來擾動圖像,將位於分類邊界內的圖像逐步推到邊界外,直到出現錯誤分類。作者證明他們生成的擾動比 FGSM 更小,同時有相似的欺騙率。
Universal Adversarial Perturbations
諸如 FGSM 、 ILCM 、 DeepFool 等方法只能生成單張圖像的對抗擾動,而 Universal Adversarial Perturbations 能生成對任何圖像實現攻擊的擾動,這些擾動同樣對人類是幾乎不可察覺的。該論文中使用的迭代方法和 DeepFool 相似,都是用對抗擾動將圖像推出分類邊界,不過同一個擾動針對的是所有的圖像。雖然文中只針對單個網絡( ResNet)進行攻擊,但已證明這種擾動可以泛化到其它網絡上,尤其是具有相似結構的網絡。
此外,作者還擴展了一個方法doubly universal;Khrulkov等也提出了一種方法,將通用擾動作爲網絡的特徵映射的雅可比矩陣的奇異向量,這使得僅使用少量圖像就可以實現相對較高的欺騙率。另一種產生通用擾動的方法是Mopuri等的快速特性。它們的方法產生了獨立於數據的通用擾動。下面爲圖例:

UPSET and ANGRI
Sarkar等人提出了兩個黑箱攻擊算法,UPSET ( Universal Perturbations for Steering to Exact Targets)和 ANGRI(Antagonistic Network for Generating Rogue Images for targeted fooling of deep neural networks)。UPSET 的能力來源於殘差梯度網絡,可以爲特定的目標類別生成對抗擾動,使得該擾動添加到任何圖像時都可以將該圖像分類成目標類別。相對於 UPSET 的「圖像不可察覺」擾動,ANGRI 生成的是「圖像特定」的擾動。它們都在 MNIST 和 CIFAR 數據集上獲得了高欺騙率。
Houdini
Houdini是一種用於欺騙基於梯度的機器學習算法的方法,通過生成特定於任務損失函數的對抗樣本實現對抗攻擊,即利用網絡的可微損失函數的梯度信息生成對抗擾動。除了圖像分類網絡,該算法還可以用於欺騙語音識別網絡(谷歌語音等)。
Adversarial Transformation Networks (ATNs)
Baluja 和 Fischer訓練了多個前饋神經網絡來生成對抗樣本,可用於攻擊一個或多個目標網絡。經過訓練的模型被稱爲對抗變換網絡(ATNs)。該算法通過最小化一個聯合損失函數來生成對抗樣本,該損失函數有兩個部分,第一部分使對抗樣本和原始圖像保持相似,第二部分使對抗樣本被錯誤分類。
同樣的研究方向, Hayex and Danezis同樣用攻擊神經網絡訓練對抗樣本進行黑盒攻擊,近期結果表明,雖然生成的對抗樣本仍舊可察覺和原始圖像的區別,但是欺騙率非常的高。
Miscellaneous Attacks 其它攻擊
這一部分列舉了更多其它的生成對抗樣本的方法,詳情請參見原文。

表 1:以上列舉的各種攻擊方法的屬性總結:「perturbation norm」表示其限制的 p-範數(p-norm)以使對抗擾動對人類不可見或難以察覺。strength 項(*越多,對抗強度越大)基於回顧過的文獻得到的印象。
除分類問題以外的對抗攻擊:
Attacks on Autoencoders and Generative Models 在自編碼器和生成模型上的攻擊
Tabacof等研究了自動編碼器的對抗性攻擊,並提出了一種扭曲輸入圖像(使其對抗性)的技術,從而誤導自動編碼器重構完全不同的圖像。他們的方法攻擊了神經網絡的內部表示,使得對抗性圖像的表示與目標圖像相似。然而,報道稱,自動編碼器似乎比典型的分類器網絡更能抵禦對抗性攻擊。Kos等還探討了獲得深度成性模型的對抗樣本的方法,例如變分自動編碼器(VAE)和VAE-生成的對抗性網絡(VAE- gans)。GANs,例如方法現在在計算機視覺應用程序中變得非常流行,因爲它們能夠學習數據分佈並使用這些分佈生成真實的圖像。作者介紹了針對VAE和VAE- gans的三種不同類型的攻擊。
Attack on Recurrent Neural Networks 在循環神經網絡上的攻擊
Papernot等成功地生成了遞歸神經網絡的對抗性輸入序列。Papernot等證明了爲前饋神經網絡計算對抗樣本的算法(例如FGSM)也適用於欺騙 RNNs。長短時記憶(LSTM) RNN體系結構也成功被欺騙。
Attacks on Deep Reinforcement Learning 深度強化學習上的攻擊
Lin等提出了兩種不同的針對深度強化學習訓練的代理的對抗性攻擊。在第一種攻擊中,被稱爲策略定時攻擊,對手通過在一段中的一小部分時間步驟中攻擊它來最小化對代理的獎勵值。提出了一種方法來確定什麼時候應該製作和應用對抗樣本,從而使攻擊不被發現。在第二種攻擊中,被稱爲迷人攻擊,對手通過集成生成模型和規劃算法將代理引誘到指定的目標狀態。生成模型用於預測代理的未來狀態,而規劃算法生成用於引誘它的操作。這些攻擊成功地測試了由最先進的深度強化學習算法訓練的代理。
Huang等證明了FGSM也可以用於在深度強化學習的背景下顯著降低訓練策略的性能。他們的威脅模型認爲對手能夠對政策的原始輸入產生微小的擾動。所進行的實驗表明,即使在黑箱場景中,也很容易用對抗樣本欺騙將神經網絡策略。關於這項工作的視頻和進一步的細節可以在上找到。
Attacks on Semantic Segmentation and Object Detection 在語義切割和物體檢測上的攻擊
語義圖像分割和對象檢測屬於計算機視覺的主流問題。Metzen等[67]受Moosavi-Dezfooli的啓發,發現了圖像近似不可察覺擾動的存在,它可以欺騙一個深層的神經網絡,從而明顯地破壞圖像的預測分割。此外,他們還表明,可以計算出噪聲向量,它可以從分割的類中移除特定的類,同時保持圖像分割大部分不變(例如,從道路場景中移除行人)。
Arnab等也評估了FGSM基於語義分割的對抗性攻擊,並指出對這些攻擊的許多觀察並沒有直接轉移到分割任務中。
Xie等計算了在觀察下的語義分割和對象檢測的對抗樣本,可以將這些任務定義爲在圖像中對多個目標進行分類——目標是一個像素或一個可接受的分割區域,以及在檢測中的 object proposal。他們的方法,稱爲密集對手生成,通過一組 pixels/proposal來優化一個損失函數,以產生對抗樣本。所生成的樣本被測試來欺騙各種基於深度學習的分割和檢測方法。他們的實驗評價不僅證明了目標網絡的成功欺騙,還表明了所產生的擾動在不同的網絡模型中得到了很好的推廣。在圖4中,根據該方法,展示了一個用於分割和檢測的網絡欺騙的典型樣本。下面爲圖例:

現實場景下的對抗攻擊
Attacks on Face Attributes 面部特徵攻擊
人臉圖像的性別(性別分類器)被修改,而人臉匹配系統的生物識別功能保持不變,下面爲圖例:

Cell-phone camera attack 手機相機攻擊
Kurakin等首先證明了對抗性攻擊的威脅也存在於物質世界中。爲了說明這一點,他們打印了對抗性的圖像,並從手機攝像頭拍下了快照。這些圖像進行對象分類。結果顯示,即使是通過相機,也有很大一部分圖像被錯誤分類。下面爲圖例:

Road sign attack 路標攻擊
攻擊者打印一個路標擾動圖像替換真正標誌或者貼紙擾動,打印一些貼紙形成擾動。下面爲圖例:

Generic adversarial 3D objects 生成敵對3D對象
Athalye等介紹了一種構造三維物體的方法,該方法可以在各種角度和視點上欺騙神經網絡。他們的(EOT)框架能夠構建在整個圖像/對象分佈上的對抗樣本。他們的端到端方法可以打印任意的對抗3D對象。下面爲圖例:

Cyberspace attacks 網絡攻擊
Papernot等在現實世界中,對網絡空間中的深層神經網絡分類器發起了第一次攻擊。他們在合成數據上爲目標黑盒分類器訓練了一個替代網絡,並通過MetaMind、Amazon和谷歌實例化攻擊遠程託管的神經網絡,結果顯示誤分類欺騙率很高。實際上,攻擊者在其威脅模型中唯一可用的信息是攻擊者輸入的目標網絡的輸出標籤。
Robotic Vision & Visual QA Attacks 機器人視覺和視覺QA攻擊
Melis等人證明了機器人對輸入圖像的對抗性操作的脆弱性。Xu等對視覺圖靈測試產生了對抗性攻擊,也稱爲視覺問題回答(VQA)。作者指出,使用深度神經網絡的常用的複合和非複合VQA體系結構容易受到對抗性攻擊的攻擊。此外,對抗樣本可以在模型之間轉移。
對抗樣本的存在性分析
Limits on adversarial robustness 對抗魯棒性的限制
Fawzi等提出了一種研究分類器在敵對擾動表現出不穩定的框架。他們建立了分類器魯棒性的基本限制,叫作數據集類別之間的可區別性測量。可區別性被定義爲兩個類的線性分類器之間的距離的均值和學習的非線性分類器的矩陣二階力矩之間的距離。這一研究表明,在深層神經網絡之外的分類器中也存在着對抗樣本。所提出的分析追溯了對低靈敏度分類器敵對不穩定性的現象,這與當時盛行的觀點並不是完全匹配的,即因爲網絡的高度非線性使得它們容易受到對抗樣本的影響。
Space of adversarial examples 對抗樣本的空間
Tabacof和Eduardo在MNIST和ImageNet數據集上生成了淺層和深層網絡分類器的對抗樣本,並利用不同的分佈和強度的噪聲來探測對抗樣本的像素空間。作者通過經驗證明,在像素空間的大區域中出現了對抗樣本,這與文章中的類似主張是一致的。然而,與線性假設相反,他們認爲和一個強大的深層分類器一樣,一個弱的、淺的、更線性的分類器也同樣易受對抗性的例子的影響。
Tramer等提出了一種估計對抗樣本空間維數的方法。它聲稱,對抗樣本跨越了一個連續的高維空間(維數大約爲25)。由於高維度,不同分類器的子空間可以交叉,從而產生了對抗樣本的可轉移性。有趣的是,他們的分析表明,即使是在容易受到直接攻擊的情況下,也可以防禦基於轉移攻擊的分類器。
Boundary tilting perspective 邊界傾斜視角
Tanay和Griffin提供了一種邊界傾斜視角,對深度神經網絡的對抗樣本的存在進行了研究。他們認爲,一般來說,當一個單類數據被抽樣來學習和評估一個分類器時,存在一個類的子簇,當分類邊界靠近這個子簇時,就存在這個類的對抗樣本。他們將分類器的對抗性強度的概念形式化,並將其簡化爲考慮分類器邊界與最近的質心分類器之間的偏差角。結果表明,分類器的對抗強度可以隨決策邊界的傾斜而變化。作者還認爲分類器的對抗穩定性與正則化有關。在Tanay和Griffin的觀點中,關於對抗樣本存在的線性假設是無法令人信服的。
Prediction uncertainty and evolutionary stalling of training cause adversaries預測的不準確性和訓練中進化的停滯導致了敵手的產生
Cubuk等認爲,對抗樣本的起源主要是由於神經網絡對其預測的固有的不確定性。他們從經驗上計算出不確定性的函數形式,這表明它獨立於網絡體系結構、訓練協議和數據集。有人認爲,這種形式只對網絡分對數差異的統計有一定的影響。這最終導致了由對抗性攻擊造成的欺騙比率,顯示了對擾動大小的普遍縮放。他們研究了FGSM、ILCM和BIM的攻擊,以證實他們的說法。也有人聲稱,基於乾淨圖像的網絡的準確性與它的對抗健壯性相關。
Rozsa等人假設,對抗擾動的存在是對訓練圖像的決策邊界演化停滯的結果。在他們看來,個體訓練樣本一旦被正確分類,就停止了對模型(即神經網絡)的訓練損失的貢獻,這最終會使他們接近決策邊界。因此,通過添加小擾動就可以將這些(類似的)樣本丟棄到錯誤的類區域。他們提出了一個批量調整的網絡梯度(BANG)算法來訓練一個網絡,以減輕訓練過程中的進化停滯。
Accuracy-adversarial robustness correlation 準確性-對抗 的魯棒性相關
爲了研究對抗樣本的存在性,Rozsa等對8個深度網絡分類器的準確率以及對[23], [94]中引入的3個對抗性攻擊的魯棒性之間的相關性進行了實證分析。研究的分類器包括AlexNet[9]、vgg16和VGG-19網絡[163]、berkeley訓練版本的GoogLeNet和普林斯頓-GoogLeNet[18]、ResNet- 52;resnet - 101;和resnet - 152[147]。在大規模ImageNet數據集[11]的幫助下,利用[23]和[94]中提出的技術,生成了對抗樣本。他們的實驗結果表明,具有較高分類準確率的網絡通常對抗辯的例子表現出更強的魯棒性。他們還得出結論,對抗樣本能更好地轉移在相似的網絡拓撲之間。
More on linearity as the source 更多關於線性的來源
Kortov和hopfield在稠密聯想記憶模型(DAM)模型中考察了對抗性擾動的存在[164]。與典型的現代深層神經網絡相比,DAM模型採用了更高階(二階以上)的神經元之間的相互作用。作者已經證明,使用較小的相互作用能力的DAM模型產生的對抗樣本,類似於使用一個帶有ReLU激勵函數[165]的深度神經網絡,無法欺騙那些具有更高階的交互作用的模型。作者提供了獨立於FGSM[23]攻擊的對抗樣本存在的經驗證據,但支持Goodfellow等人的線性假設[23]。
Existence of universal perturbations 通用擾動的存在
Moosavi-Dezfooli等[16]最初認爲,通用的對抗性擾動利用分類器誘導的決策邊界之間的幾何相關性。它們的存在一定程度上歸功於一個子空間,它包含了決定邊界的法線,這樣,法線也圍繞着自然圖像。在[70]中,他們進一步建立了他們的理論,並顯示了共同方向的存在(在數據點之間共享),而分類器的決策邊界可以非常積極地彎曲。他們認爲,這種方向在通用擾動的存在中起着關鍵作用。在此基礎上,提出了一種新的幾何方法來有效地計算普遍的對抗性擾動。
值得注意的是,以前的Fawzi等人[69]也將分類器的魯棒性的理論界限與決策邊界的曲率聯繫起來。類似地,Tramer等[77]也在數據點附近保持了決策邊界的曲率,負責神經網絡對黑盒攻擊的脆弱性。在最近的另一項工作中,Mopuri等[193]提出了一個類似於GAN的模型,以學習針對給定目標模型的通用對抗擾動的分佈。學習的分佈也被觀察到在模型之間顯示良好的可移植性。
對抗攻擊防禦
目前,在對抗攻擊防禦上存在三個主要方向:
1)在學習過程中修改訓練過程或者在測試階段修改的輸入樣本。
2)修改網絡,比如:添加更多層/子網絡、改變損失/激活函數等。
3)當分類未見過的樣本時,用外部模型作爲附加網絡。
這些方向具體又可分爲
(a)完全抵抗(Complete),即能夠分對對抗樣本的原始類別
(b)僅探測方法(Detection only),即只鑑別出哪些是對抗樣本。具體分類如下圖:


修改訓練過程/ 輸入數據
Brute-force adversarial training 蠻力對抗訓練
對抗訓練是抵禦對抗樣本攻擊的第一道防線。通過不斷輸入新類型的對抗樣本並執行對抗訓練,從而不斷提升網絡的魯棒性。爲了保證有效性,該方法需要使用高強度的對抗樣本,並且網絡架構要有充足的表達能力。這種方法需要大量的訓練數據,因而被稱爲蠻力對抗訓練。很多文獻中提到這種蠻力的對抗訓練可以正則化網絡以減少過擬合 [23,90],進而增強網絡的抵抗能力。然而,Moosavi-Dezfooli[16] 指出,無論添加多少對抗樣本,都存在新的對抗攻擊樣本可以再次欺騙網絡。
Data compression as defense 數據壓縮
注意到大多數訓練圖像都是 JPG 格式,Dziugaite等人使用 JPG 圖像壓縮的方法,減少FGSM對抗擾動對準確率的影響。實驗證明該方法對部分對抗攻擊算法有效,但通常僅採用壓縮方法是遠遠不夠的,並且壓縮圖像時同時也會降低正常分類的準確率,而微小的壓縮又不能夠去除對抗擾動。
Foveation based defense 基於中央凹機制的防禦
Luo等人提出用中央凹(foveation)機制可以防禦 L-BFGS 和 FGSM 生成的對抗擾動,其假設是基於CNN分類器訓練大量數據集對於圖像的縮放和轉換變動是魯棒的,而對抗模式不具備這種特性。但這種方法在更強大的攻擊下還沒被證明有效性。
Data randomization and other methods 數據隨機化方法及其他方法
Xie等人發現對訓練圖像引入隨機重縮放可以減弱對抗攻擊的強度,其它方法還包括隨機 padding、訓練過程中的圖像增強等。
修改網絡
首先,是幾種完全抵抗方法,然後再是僅探測方法。
Deep Contractive Networks 深度壓縮網絡
人們觀察到簡單地將去噪自編碼器(Denoising Auto Encoders)堆疊到原來的網絡上只會使其變得更加脆弱,因而 Gu 和 Rigazio[24] 引入了深度壓縮網絡(Deep Contractive Networks),其中使用了和壓縮自編碼器(Contractive Auto Encoders)類似的平滑度懲罰項。
Gradient regularization/masking 梯度正則化/ 遮罩
Ross 和 Doshi-Velez使用輸入梯度正則化以提高對抗攻擊魯棒性 ,方法訓練可微模型(如深度神經網絡),同時懲罰導致輸出相對於輸入的變化程度。這樣一個小的對抗擾動就不會對輸出有很顯著的影響。該方法和蠻力對抗訓練結合有很好的效果,但計算複雜度太高,在很多場合已經棄用。
在此之前,Lyu等人也使用了懲罰網絡模型在輸入方面的損失函數梯度的概念,以對抗基於L-BFGS[22]和FGSM[23]的攻擊。類似地,Shaham等人試圖通過在每次參數更新時最小化模型在對抗性示例上的損失來改善神經網絡的局部穩定性。他們最小化模型在對抗樣本數據集的損失,而不是原始數據。在一項相關的工作中,Nguyen和Sinha[44]通過在網絡的logit輸出中添加噪聲,引入了一種基於遮罩的對C&W攻擊[36]的防禦。
Defensive distillation 防守性蒸餾
據Hinton等[166]介紹,distillation (蒸餾)是指將複雜網絡的知識遷移到簡單網絡上。該知識以訓練數據的類概率向量形式提取,並反饋給訓練原始模型。Papernot[38] 利用這種技術提出了 Defensive distillation,並證明其可以抵抗小幅度擾動的對抗攻擊。防禦性蒸餾也可以被看作是梯度遮罩技術的一個例子。
Biologically inspired protection 生物啓發的防禦方法
使用類似與生物大腦中非線性樹突計算的高度非線性激活函數以防禦對抗攻擊。另外一項工作 Dense Associative Memory 模型也是基於相似的機制 [127]。Brendel和Bethge[187]聲稱,由於計算的數值限制,這些攻擊在生物激發的保護上失敗了[124]。穩定計算再次讓攻擊受保護的網絡成爲可能。
Parseval Networks 帕網絡
這些網絡通過控制網絡的全局Lipschitz常數來分層正則化。網絡可以被看作是函數(在每一層)的組合,通過對這些函數保持一個小的Lipschitz常數,可以對這些函數對抗小的干擾。
DeepCloak
在分類層(一般爲輸出層)前加一層特意爲對抗樣本訓練的遮罩層。添加的層通過向前傳遞乾淨的和對抗性的圖像對進行顯式的訓練,它爲這些圖像對編碼先前層的輸出特性之間的差異。它背後的理論認爲添加層中最主要的權重對應於網絡最敏感的特性(就對抗操縱而言)。因此,在進行分類時,這些特徵被強制將添加的層的主導權重變爲零。
Miscellaneous approaches 混雜方法
這章包含了多個人從多種角度對深度學習模型的調整從而使模型可以抵抗對抗性攻擊。
Zantedeschi等提出使用有界的ReLU來降低圖像中對抗性模式的有效性。
Jin等介紹了一種前饋CNN,它使用附加噪聲來減輕對抗性示例的影響。
Sun et al提出了以統計過濾爲方法使網絡具有魯棒性的超網絡。
Madry et al.從魯棒優化的角度研究對抗性防禦。他們表明,與PGD對手進行對抗性訓練,可以成功地抵禦一系列其他對手。後來,Carlini等也證實了這一觀察。
Na等採用了一種統一嵌入的網絡進行分類和低水平相似度學習。該網絡使用的是乾淨圖像和相應的對抗性嵌入樣本之間的距離。
施特勞斯等人研究了保護網絡免受擾動的集成方法。
Kadran等修改了神經網絡的輸出層,以誘導對對抗攻擊的魯棒性。
Wang et al.利用網絡中的非可逆數據變換,開發了抗敵對神經網絡。
Lee等人開發了多種規則化網絡,利用訓練目標來最小化多層嵌入結果之間的差異。
Kotler和Wong提出學習基於相關性的分類器,該分類器對小對抗擾動具有魯棒性。他們訓練一個神經網絡,在一個標準設置中,它可以很好地達到高精確度(90%)。
Raghunathan等研究了具有一個隱藏層的神經網絡的防禦問題。他們的方法在
MNIST數據集上生成一個網絡和一個證書,達到一個防禦目的。
Kolter和Wong和Raghunathan等是爲數不多的幾種可以證明的對抗敵對攻擊的方法。考慮到這些方法在計算上不適用於更大的網絡,唯一被廣泛評估的防禦是Madry等人的防禦。
使用附加網絡
防禦通用擾動
Akhtar等人提出了一種防禦框架,該框架將額外的預輸入層附加到目標網絡中,並訓練它們對對抗樣本進行校正,使分類器對同一圖像的乾淨版本的預測與對抗樣本預測相同。通過提取訓練圖像輸入輸出差異的特徵,對分離的檢測器進行訓練。利用一個單獨訓練的網絡加在原來的模型上,從而達到不需要調整係數而且免疫對抗樣本的方法。
基於 GAN 的防禦
Lee等人利用生成性對抗網絡的流行框架來訓練一個對FGSM類攻擊健壯的網絡。作者建議沿着一個生成網絡直接對網絡進行訓練,該網絡試圖對該網絡產生擾動。在訓練過程中,分類器不斷嘗試對乾淨和擾動的圖像進行正確的分類。我們將此技術歸類爲附加方法,因爲作者建議始終以這種方式訓練任何網絡。在另一個基於GAN的防禦中,Shen等人使用網絡的生成器部分來修正一個受干擾的圖像。
僅探測方法
介紹了 Feature Squeezing、MagNet 以及混雜的辦法。
Feature Squeezing 方法用了兩個模型來探查是不是對抗樣本。後續的工作介紹了這個方法對 C&W 攻擊也有能接受的抵抗力。He等也將特徵壓縮與中提出的集成方法相結合,以顯示防禦的力量並不總是通過組合它們而增加。
MagNet: Meng和Chen[45]提出了一個框架使用一個或多個外部探測器將輸入圖像分類爲對抗性或乾淨圖像。在培訓期間,該框架的目的是學習各種清潔圖像。對圖片的流行(manifold)測量值來訓練,從而分辨出圖片是不是帶噪聲的。
混雜方法(Miscellaneous Methods):Liang等 [50]訓練了一個模型,把所有輸入圖片當成帶噪聲的,先學習怎麼去平滑圖片,之後再進行分類。將圖像的攝動處理爲噪聲,並利用標量量化和空間平滑濾波分別檢測這些攝動。將分離的二進制分類器訓練爲使用所提議的特性的對抗樣本檢測器。Gebhart和Schrater[92]將神經網絡計算視爲圖中的信息流,並提出了一種利用誘導圖的持久同源性檢測對抗性擾動的方法。

原文鏈接:https://blog.csdn.net/qq_41409438/article/details/102692563

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章