Hinton領銜谷歌大腦新研究,通過膠囊網絡重構自動檢測對抗樣本

AI前線導讀:

膠囊網絡(capsule network,CapsNet)可以自動把對抗樣本揪出來啦!這項研究來自 capsule 模型的原作者 Sabour、Frosst 以及 Hinton,相關論文將在 NIPS 2018 的機器學習安全研討會中展示。

Hinton團隊在2017年發表在NIPS上的論文曾經介紹,通過添加一個能夠從頂層膠囊的姿態參數和身份重構輸入圖像的網絡,可以提高膠囊網絡的判別能力(Dynamic routing between capsules)。而在最新論文中,該團隊提出重構網絡可以視作檢測對抗性攻擊的非常有效的方法:從獲勝的頂層膠囊的身份和姿態參數中重構輸入,以驗證網絡能夠感知我們期望它從某個類的典型樣例中感知的東西。本文是AI前線第59篇論文導讀。

更多幹貨內容請關注微信公衆號“AI前線”(ID:ai-front)

image

在這篇論文中,作者提出了一項簡單的方法,可以讓膠囊網絡檢測出對抗圖像樣本。除了圖像分類的訓練任務之外,作者訓練膠囊網絡根據頂層膠囊的姿態參數和身份來重構圖像。由於對抗樣本看起來不像目標類的典型成員,因此從該類的頂層膠囊生成重構圖像時,它們會有更大的重構誤差。實驗證明了在輸入圖像和重構圖像之間的L2距離上設置閾值可以有效檢測出攻擊圖像。同樣的方法對於其他能夠從隱層重構圖像的卷積神經網絡也使用。作者進一步探索了更強的白盒攻擊,將重構誤差考慮在內。這種攻擊能夠欺騙檢測技術,但是爲了能讓模型將預測結果改變爲目標類別,必須使對抗圖像類似於目標類別的圖像。

介紹

通過重構網絡反向傳播的導數,可以讓頂層膠囊的姿態參數捕獲關於圖像的大量信息。這樣訓練的膠囊網絡不僅可以輸出分類結果,而且可以輸出輸入圖像的類別條件重構。重構子網絡可以視作一種檢測對抗性攻擊的非常有效的方法。作者提出DARCCC,是一種與攻擊獨立的檢測技術,它依賴於真實圖像和對抗圖像的類重構距離分佈之間的差異。作者進一步將DARCCC擴展到更標準的圖像分類網絡(卷積神經網絡),並且在三個MNIST、Fashion-MNIST和SVHN數據集上證明了檢測方法對黑盒攻擊和典型白盒攻擊的有效性。

不過論文提出的檢測方法可以被更強的白盒攻擊(R-BIM)所擊敗。這種白盒攻擊將重構誤差考慮在內,並且通過迭代地方式干擾圖像,以得到更好的重構結果。然而,這種更強的攻擊不會產生看起來像原始圖像的典型對抗圖像,而是帶有少量的附加噪聲。爲了使模型不能正確地對圖像進行分類,對原始圖像的擾動必須很大,並且得到類似於目標類圖像的“對抗”圖像。此外,對於膠囊網絡,如果給重構誤差足夠的權重以避免檢測,則通常無法以導致錯誤分類的方式改變圖像。圖1給出了從真實數據和對抗樣本中重構的圖像,對抗重構與輸入圖像之間的偏差是這個方法的主要動機。

image

圖1 用真實數據和對抗樣本訓練的膠囊網絡的預測類別姿態參數中重構的圖像,目標類別爲“1”。從對抗數據中重構出的圖像比輸入圖像更像“1”。

方法

在2017年,Sabour等人(Sara Sabour, Nicholas Frosst, and Geoffrey E Hinton. Dynamic routing between capsules. In Advances in Neural Information Processing Systems, pages 3856–3866, 2017)提出的CapsNet的重構網絡,將所有類別膠囊的姿態參數作爲輸入,然後通過masking操作,將除了預測類別的姿態參數外的所有值設爲0。在訓練過程中,他們優化輸入圖像和重構圖像直接的L2距離以及類別誤差。在這篇文章中,作者使用同樣的重構網絡來檢測對抗攻擊,優化輸入和預測重構之間的歐式距離。圖2顯示了自然圖像和對抗圖像的重構距離的直方圖。作者利用兩個分佈(真實圖像和對抗圖像的類重構距離分佈)之間的差異,提出了DARCCC:基於分類重構檢測攻擊。DARCCC將圖像的重構距離作爲閾值,判斷其是否爲對抗樣本。

image

image

image

圖2 不同模型輸入和重構之間的L2距離直方圖,輸入分別爲MNIST、Fashion MNIST和SVNH數據集上的真實和對抗數據。作者用FGSM來產生攻擊數據。

儘管上述系統是爲膠囊網絡的姿態參數設計,這個方法也可以延伸到其他網絡。作者設計了一個類似的結構,“Masked CNN+R”,通過使用一個標準的卷積神經網絡,然後將倒數第二個隱層按類別分組。每個神經元組的和作爲該類別的分數,然後通過Masking方法,將整個組傳遞給重構子網絡。作者進一步通過省略Masking操作,用傳統的“CNN+R”模型,將整個倒數第二層用於重構,研究了類別條件重構的影響。

檢測閾值

DARCCC的閾值基於輸入圖像和重構圖像之間的期望距離。如果輸入和重構之間的距離高於設定閾值,DARCCC則將數據認定爲攻擊樣本。選擇閾值需要在假陽性和假陰性檢測率中進行權衡。因此,應該根據系統被攻擊的假設可能性來選擇閾值。Gilmer等人的論文(Justin Gilmer, Luke Metz, Fartash Faghri, Samuel S Schoenholz, Maithra Raghu, Martin Wattenberg, and Ian Goodfellow. Adversarial spheres. arXiv preprint arXiv:1801.02774, 2018)討論了該如何進行權衡。在實驗中,作者沒有調整這個參數,而是直接設置爲驗證距離的95%,也就是說在真實驗證數據集上的假陽性率是5%。

實驗

實驗所用三個模型,膠囊網絡(Capsule)、CNN+R以及Masked CNN+R,參數數量相同。圖3給出了每個網絡的結構。所有模型的訓練參數一樣,超參數經過選擇使模型在測試集上表現大致相同。

image

表1給出了訓練模型在三個數據庫(MNIST、Fashion-MNIST和SVHN)上的測試準確率。

image

表1

黑盒對抗攻擊檢測

爲了測試DARCCC在黑盒攻擊的表現,我們訓練了一個有兩層卷積和兩個隱層的標準CNN網絡,沒有重構網絡,然後用FGSM方法來生成對抗攻擊樣本。圖4給出了誤差率、攻擊檢測率以及成功攻擊檢測率的曲線圖。對於所有三個模型,DARCCC不僅準確的檢測出了成功的攻擊樣本(成功攻擊檢測率,攻擊改變了網絡的分類結果),並且不管攻擊樣本有沒有改變網絡的分類,都檢測出了樣本的擾動(攻擊檢測率)。

image

image

圖4 DARCCC檢測率和黑盒FGSM攻擊誤差率曲線圖

白盒對抗攻擊檢測

作者測試了DARCCC對於白盒BIM(Basic Iterative Method)對抗攻擊方法的表現。圖5給出了成功攻擊率(將分類結果改變爲目標類別)、攻擊檢測率(圖片是否被改動)以及成功攻擊檢測率(檢測出預測結果改變的圖片)隨迭代次數變化曲線圖。對於所有模型,DARCCC在Fashion MNIST和MNIST數據集上可以在一定程度上檢測出攻擊,但是在膠囊模型上,DARCCC也能夠檢測出SVHN數據集中的對抗樣本。

image

圖5 DARCCC檢測率和白盒BIM攻擊成功率隨迭代次數變化曲線圖

重構BIM攻擊

有目標的BIM方法用梯度來最大化目標類別的分類概率。由於重構距離也是可導的,作者將BIM修改爲R-BIM,最小化重構距離。R-BIM是專門爲擊敗DARCCC而設計的。圖6給出了隨機10張SVHN圖像作爲初始輸入,以及R-BIM運行100步後的結果,目標類別爲“0”。我們發現幾張被改動的樣本看起來像“0”。但是它們並不是對抗圖像,因爲對於肉眼來說它們與預測類別太過相似。這也意味着其梯度與真實數據分佈在同一流形。論文附錄給出了MNIST和Fashion MNIST數據集上的結果。對於Fashion MNIST,只有膠囊模型的攻擊樣本與目標類別的真實圖像相似。

image

圖6 第一排是初始SVHN圖像,受R-BIM攻擊,目標類別爲“0”。後面幾行是不同模型生成的成功對抗樣本。

圖7給出了R-BIM的檢測率曲線。R-BIM在改變類別的攻擊成功率上遠遠低於標準BIM。膠囊網絡尤其展現了它對這種攻擊的適應能力。

image

圖7 R-BIM攻擊成功率和DARCCC檢測率曲線圖

總結

這篇文章中作者提出了DARCCC,一個能夠檢測對抗攻擊的簡單結構擴展。DARCCC主要基於重構和輸入圖像之間的相似性度量。這一度量在訓練過程中用於訓練重構網絡,在測試過程中區分對抗樣本。在3個數據集上的實驗表明,樣本之間的距離與語義相似性大致相關。但是在更復雜的數據集如Cifar10或ImageNet中,情況並不是這樣。更復雜的數據集中兩張圖像可能在外觀上很相似,但是L2距離很大。如何將本文提出的方法擴展到更復雜的問題上可以作爲未來的研究方向。

需要注意的是,DARCCC並不依賴於某個特定的預定義的對抗攻擊。通過從網絡內部的類別條件表示重構輸入,系統可以準確的檢測黑盒攻擊,以及FGSM和BIM白盒攻擊。在作者所探討的三個模型中,膠囊網絡是最適合這個任務的,並且在所有實驗數據集上檢測對抗樣本的準確率更高。作者隨後提出了一個新的,更強大的攻擊方法,R-BIM,攻擊不僅優化分類損失,還優化重構損失。這種攻擊沒有標準攻擊的成功率高,尤其是膠囊網絡顯示了較好的適應性。對於更復雜的數據集例如SVHN,作者發現檢測方法不能檢測出強對抗攻擊,不過可視化結果中,被幹擾圖像往往與目標類別的真實數據流形十分相似,所以他們缺乏典型對抗攻擊的反常性。

查看論文原文:

https://arxiv.org/pdf/1811.06969.pdf

image

鏈接:http://t.cn/E28YBT9

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章