Explaining and harnessing adversarial examples

[1] Goodfellow I J, Shlens J, Szegedy C. Explaining and harnessing adversarial examples[J]. arXiv preprint arXiv:1412.6572, 2014.

https://arxiv.org/abs/1412.6572

Abstract : 應用細微但是有意的最壞的擾動到數據集中的樣本上形成輸入,這樣擾動的輸入導致模型輸出一個錯誤的答案並且伴隨着很高的可信度。先前工作聚焦於非線性和過擬合嘗試解釋這個現象,我們反而認爲NN對 對抗擾動表現脆弱性的主要原因在於其線性特徵。解釋:他們通過架構和訓練集的泛化。此外,這種觀點 產生了一個簡單並且快速生成對抗樣本的方法。使用這個方法去提供樣本用於對抗訓練,我們減少了maxout網絡在MINST數據及上的錯誤。

1 Introduction :

Szegedy 做了一個有趣的發現:一些機器學習模型,包括最先進的NN,對Adversarial examples(AE)表現脆弱。這些ML模型分錯僅跟數據分佈中抽取的正確分類樣本有細微差異的樣本。在很多場景下,在不同架構和不同訓練數據子集下的訓練的各種模型錯分類同樣的AE,這表示對抗樣本暴露了我們訓練算法的基本盲點。

這些AE的原因是一個謎,推測的解釋提出這是由於DNN極度非線性,可能與不充分模型平均和純監督學習問題的不充分正則化相結合。我們表示這些推測的假設是不必要的,在高維空間的線性行爲足以造成AE。這個現象讓我們去設計了一個快速的生成對抗樣本的方法從而讓對抗訓練變得實用。我們表示對抗訓練能提供一個比僅實用dropout更多的正則好處。通常的正則化策略例如dropout,與訓練和模型平均並不會顯著減少模型對AE的脆弱性,但改用非線性模型家族例如RBF網絡能夠才做到這樣。

我們的解釋提出了一個 設計由於線性易於訓練的模型和使用非線性效應去抵抗對抗擾動去設計模型 之間的基本張力,從長遠來看,設計更加有力的優化方法從而能夠成功訓練更多非線性模型 可能避免這種折中。

2 Related Work:

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章