【公衆號文章】——對抗性機器學習的漏洞

對抗性機器學習的漏洞


鏈接來源:
https://mp.weixin.qq.com/s/I7JsQA8_1qFM5V32b7HubA


【引言】數據爲人工智能革命提供了動力,但是安全專家們發現,完全可以通過篡改數據集或實現環境來攻擊人工智能,對抗性的機器學習研究表明人工智能可會被黑客攻擊,從而做出完全錯誤的決策。


爲了防止犯罪分子想通過篡改數據集或現實環境來攻擊人工智能,研究人員轉向對抗性的機器學習研究。研究人員對數據進行修改,從而欺騙神經網絡和人工智能系統,讓它們看到不存在的東西,忽略存在的東西,或者使得其關於分類對象的決策完全錯誤。

就像谷歌和紐約大學研究人員所做的那樣,在一輛校車的照片上加上一層對人類來說無形的數據噪聲,神經網絡就會報告說,它幾乎可以肯定那是一隻鴕鳥。不僅僅是圖像可以這樣:研究人員已經將隱藏的語音指令嵌入到廣播中,從而控制智能手機,同時不會讓人們察覺。

雖然這類工作現在被描述爲一種攻擊,但從哲學角度來說,對抗性的例子最初被視爲神經網絡設計中的一個近乎盲點:我們假設機器以我們同樣的方式看東西,它們用與我們相似的標準來識別物體。2014年,谷歌研究人員在一篇關於“神經網絡的有趣特性”的論文中首次描述了這一想法,該論文描述瞭如何在圖像中添加“擾動”元素會導致神經網絡出現錯誤——他們稱之爲“對抗性示例”。他們發現,微小的扭曲就可能會騙過神經網絡,使其誤讀一個數字或誤將校車當成別的什麼東西。這項研究對神經網絡 “固有盲點”以及它們在學習過程中的“非直覺特徵”提出了質疑。換句話說,我們並不真正瞭解神經網絡是如何運作的。

加州大學伯克利分校(University of California, Berkeley)計算機科學教授唐恩·宋(Dawn Song)、華盛頓大學(University of Washington)計算機安全研究員厄爾倫斯·費爾南德斯(Earlence Fernandes)等人都從事有關停車標誌貼紙來干擾自動駕駛汽車。研究表明:因爲人類對深度學習的原理及其侷限性理解非常有限,且黑客攻擊的範圍很廣,取決於攻擊者處在機器學習模型生成過程的哪個階段。因此,在開發機器學習模型時可進行訓練時間攻擊,也就是使用惡意數據來訓練系統。

另一方面,推理時間攻擊則是通過一系列算法——比如快速梯度符號法(Fast Gradient Sign Method,FGSM)和當前最優攻擊方法(Carlini and Wagner)是兩種最流行的算法——向模型顯示精心製作的輸入,從而迷惑神經網絡。


【展望】有一個想法很有希望,那就是訓練神經網絡,通過對抗性示例包含在訓練數據中來提高識別神經網絡的健壯性。他說:“通過這種方式,神經網絡‘學會’對對抗性示例有一定的抵抗力。”


【總結】這不僅是一個技術缺陷,也是一個哲學假設。首先,當攻擊者可以自由操縱數據獲取優勢時,機器學習開發人員會假定訓練數據和測試數據是相似的。第二,我們往往認爲神經網絡像我們一樣思考,但實際上並不是如此;神經網絡用來識別玩具龜的元素與我們所尋找的不同,而這種差異性正是攻擊的突破口。費爾南德斯說:“神經網絡是非常粗略地模擬人類大腦。試圖將它們視爲與我們大腦類似的運作方式,可能並不是思考它們的最佳方式。”

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章