神經網絡太好騙?清華團隊如何做到打NIPS攻防賽得3冠軍的

大家好,我是爲人造的智能操碎了心的智能禪師。

今天帶來的文章,由同濟大學研究生張子豪投稿。介紹了人工智能與信息安全的交叉前沿研究領域:深度學習攻防對抗。

文章介紹瞭如何用對抗樣本修改圖片,誤導神經網絡指鹿爲馬;對 NIPS 2017 神經網絡對抗攻防賽 3 項冠軍清華團隊的算法模型進行了解讀。

文章部分內容來自 2018 CNCC 中國計算機大會—人工智能與信息安全分會場報告。

本文內容不代表人工智能頭條及智能禪師觀點。

TD;DR

GAN 一點都不擼棒,簡直不要太好騙:胖達變成猴,山誤認爲狗 對抗樣本不是僅在最後預測階段產生誤導,而是從特徵提取過程開始就產生誤導 NIPS 2017 神經網絡對抗攻防賽中,清華大學的學霸們採用了多種深度學習模型集合攻擊的方案,訓練出的攻擊樣本具備良好的普適性和可遷移性。

全文大約3500字。讀完可能需要好幾首下面這首歌的時間

?

胖虎和吳亦凡,邊界是如此的模糊

王力宏和張學友,看上去竟如此的神似

人臉識別、自動駕駛、刷臉支付、抓捕逃犯、美顏直播…人工智能與實體經濟深度結合,徹底改變了我們的生活。神經網絡和深度學習貌似強大無比,值得信賴。

但是人工智能是最聰明的,卻也是最笨的,其實只要略施小計就能誤導最先進的深度學習模型指鹿爲馬。

大熊貓 = 長臂猿

早在2015年,“生成對抗神經網絡 GAN 之父” Ian Goodfellow 在 ICLR 會議上展示了攻擊神經網絡欺騙成功的案例。

在原版大熊貓圖片中加入肉眼難以發現的干擾,生成對抗樣本。就可以讓 Google 訓練的神經網絡誤認爲它 99.3% 是長臂猿。

阿爾卑斯山 = 狗

2017 NIPS 對抗樣本攻防競賽案例:阿爾卑斯山圖片篡改後被神經網絡誤判爲狗、河豚被誤判爲螃蟹。

對抗樣本不僅僅對圖片和神經網絡適用,對支持向量機、決策樹等算法也同樣有效。

那麼,具體有哪些方法,可以把人工智能,變成人工智障呢?

人工智障:逃逸攻擊,白盒/黑盒,對抗樣本

逃逸攻擊可分爲白盒攻擊和黑盒攻擊。

白盒攻擊是在已經獲取機器學習模型內部的所有信息和參數上進行攻擊,令損失函數最大,直接計算得到對抗樣本.

黑盒攻擊則是在神經網絡結構爲黑箱時,僅通過模型的輸入和輸出,逆推生成對抗樣本。下圖左圖爲白盒攻擊(自攻自受),右圖爲黑盒攻擊(用他山之石攻此山之玉)。

對機器學習模型的逃逸攻擊,繞過深度學習的判別並生成欺騙結果,攻擊者在原圖上構造的修改被稱爲對抗樣本

神經網絡對抗樣本生成與攻防是一個非常有(zhuang)趣(bi)且有前景的研究方向。

2018年,Ian Goodfellow 再發大招,不僅欺騙了神經網絡,還能欺騙人眼。

論文鏈接?

https://arxiv.org/abs/1802.08195

文中提出了首個可以欺騙人類的對抗樣本。下圖左圖爲貓咪原圖,經過對抗樣本干擾之後生成右圖,對於右圖,神經網絡和人眼都認爲是狗。

下圖中,綠色框爲貓的原圖。左上角顯示了攻擊的目標深度模型數量越多,生成的圖像對人類來說越像狗。 左下角顯示了針對 10 個模型進行攻擊而生成的對抗樣本,當 eps = 8 的時候,人類受試者已經把它認成狗了。

除此之外,人工智能還面臨模型推斷攻擊、拒絕服務攻擊、傳感器攻擊等多種信息安全挑戰。

對抗樣本有多好騙?

對抗樣本會在原圖上增加肉眼很難發現的干擾,但依舊能看得出來和原圖的區別,下圖左圖爲對抗樣本,右圖爲熊貓原圖。

對抗樣本不是僅在最後預測階段產生誤導,而是從特徵提取過程開始就產生誤導. 下圖展示了第147號神經元分別在正常深度學習模型和對抗樣本中的關注區域。在正常模型中,第147號神經元重點關注小鳥的頭部信息。在對抗樣本中,第147號神經元則完全被誤導了,關注的區域雜亂無章。

同時也說明,對抗樣本不是根據語義生成的,它並不智能。而且,正如接下來講述的,對抗樣本對圖片預處理過程非常敏感,任何區域截圖、放大縮小、更換模型都很容易讓對抗樣本失效。

其實,如果你把那張經過攻擊篡改之後的大熊貓圖片稍微放大或縮小,或者直接截一部分圖,然後放到其它公開的圖像識別模型上運行(比如百度識圖),識別結果依舊是大熊貓。

這意味着對抗樣本僅對指定的圖片和攻擊模型生效,對諸如區域截圖、放大縮小之類的預處理過程是非常敏感的。

也就是說,如果還想欺騙更多其它的深度學習模型,就要在訓練生成對抗樣本時儘可能包含更多的已知深度學習模型。

NIPS 冠軍是怎麼做的

2017 年,生成對抗神經網絡(GAN)之父 Ian Goodfellow,牽頭組織了 NIPS 的 Adversarial Attacks and Defences(神經網絡對抗攻防競賽)。

清華大學博士生董胤蓬、廖方舟、龐天宇及指導老師朱軍、胡曉林、李建民、蘇航組成的團隊在競賽中的全部三個項目中得到冠軍。

清華大學團隊正是採用了多種深度學習模型集合攻擊的方案,通過對 Image.Net 網站上的三萬張圖片進行訓練,提出七種攻擊模型。

集合攻擊考慮了 Inception V3、ResNet、Inception ResNet V2 三種已知的深度學習模型,訓練出的攻擊樣本具備良好的普適性和可遷移性。

下圖展示了他們使用FGSM模型進行攻擊的測試:

橫行爲攻擊模型名稱,豎列爲防守模型名稱,表格中的數字表示對於每1000張攻擊圖片,防守模型成功防守的圖片數目,數字越大,表示豎列模型防守越有效,數字越小,表示橫行模型進攻越有效。

紅色表示用同一個模型進行攻防(白盒攻擊)。可以看出:下面是個有序序列

白盒攻擊成功率遠遠大於黑盒成功率。如何提高黑盒攻擊的可遷移性,實現跨模型的黑盒攻擊,是一個重要問題。

由 Adv-Incv3 豎列看出,經過對抗訓練之後的防守模型非常強悍。甚至可以達到 94.1% 的防守成功率。

因此,將對抗樣本引入訓練數據集進行對抗訓練是有效的防守策略,相當於士兵平時訓練的時候就採用真實戰場條件,上了戰場自然不慫。

由 Ens4-Adv-Incv3 豎列看出,經過多個模型集合訓練之後的防守模型非常強悍。 正所謂“用五嶽他山之石攻此山之玉”、“曾經滄海難爲水”,使用多個深度模型訓練出的防守模型必然是集衆家之長。

防禦組:圖像降噪策略

對抗訓練(把真實戰場作爲訓練場):在訓練模型的時候就加上對抗樣本(對抗訓練)。

對抗樣本隨模型訓練的過程在線生成。雖然很耗時,但訓練出的模型魯棒性很強

改進的HGD降噪算法:像素層面上的去噪並不能真正去掉噪音,傳統的像素去噪方法全都無效。

採用基於CNN的改進HGD降噪算法,僅使用750張訓練圖片,大大節省訓練時間,且模型可遷移性好。

未來可能的應用場景

誤導汽車的語音指令

這個方式已經被中國科學院大學教授陳愷實現了。通過對汽車音響播放的歌曲進行干擾編碼,雖然人耳聽起來仍然是原曲,實際上暗中通過微信的語音,發送了“Open the door”指令。

本文作者張子豪提出另一種思路,使用樹莓派微型電腦,發射FM調頻廣播播放干擾之後的歌曲,直接干擾汽車收音機。

陳愷表示,已經嘗試過該方式,決定干擾成功率的關鍵還是在於過濾外界噪音干擾。

直接破解本地 AI 模型

360智能安全研究院負責人李康認爲,人工智能與信息安全的下一個熱點:深度學習模型參數被竊取的風險和數據安全。

隨着邊緣計算和智能移動終端時代的到來,在移動終端部署本地 AI 應用越來越廣泛。從iPhone X的刷臉解鎖,到華爲、高通部署手機端的 AI 芯片。

在移動終端本地運行 AI 應用,可有效解決延遲、傳輸帶寬、用戶隱私泄露等問題,但同時也帶來本地深度學習模型的數據安全問題。

經過簡單的逆推,就可以破解很多本地的 AI 應用,甚至可以知道其中的 Caffe 模型的基本參數。

有些開發者會採用 AES 加密把模型封裝起來,但殊不知在 AES 密鑰也得保存在本地文件中。

有時甚至根據追蹤 AI 應用對內存的訪問情況,就可以判斷出這個模型的神經網絡結構。

所以 AI 開發者在向移動端和嵌入式設備中部署 AI 應用時,一定要事先請教安全團隊,確保模型數據安全。

延伸閱讀

NIPS 2017 神經網絡對抗攻防賽介紹:

比賽分組規則

比賽爲三組選手互相進行攻防

  1. Targed Attack 組:組委會給 5000 張原圖和每張圖對應的目標誤導結果數據集,制定要求指鹿爲馬
  2. Non-ratgeted Attack 組:只要不認不出是鹿就行
  3. Defense 組:正確識別已經被其他參賽組對抗樣本攻擊的圖片

攻擊組:對抗樣本生成策略

集合攻擊(他山之石可以攻玉):攻擊多個已知深度學習模型的集合,而不是逐個擊破。

比方說,把ResNet、VGG、Inception三個模型視作統一的大模型一起攻擊,再用訓練好的模型攻擊AlexNet,成功率就會大大提高。

可以在模型底層、預測值、損失函數三個層面進行多個模型的集合攻擊。

採用這個方法,可以大大提高對抗樣本攻擊的普適性和可遷移性。

改進的FGSM模型:多步迭代、帶目標、引入動量,大大提高對抗樣本的可遷移性。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章