文章目錄
1. 攻擊者模型(Adversary Model)
原文中,將 adversary model 翻譯成“敵手”,我覺得不是很恰當,這裏直譯爲攻擊者。
1.1 攻擊者目標(從 CIA 三方面來看)
- 機密性
- 完整性
- 可用性
1.2 攻擊者知識
- 訓練數據(training data)
- 模型架構(model structure)
- 參數(parameters)
- 決策函數(decision function)
- 黑盒模型(black-box)
- 白盒模型(white-box)
1.3 攻擊者能力
-
數據控制能力的不同:
- 強攻擊者
- 弱攻擊者
-
訓練階段中:
- 訪問訓練數據
- 注入惡意數據
- 直接修改數據
1.4 攻擊者策略
- 爲達到攻擊目標,採取的具體攻擊方式
2. 機器學習安全威脅及防禦技術
2.1 機器學習常見的安全性威脅:
2.1.1 訓練階段的安全威脅
1. 投毒攻擊(poisoning attack)
- [1]:隨機修改40%訓練數據標籤,在二分類中無法正常分類(SVM)。
- [2-3]:注入精心製作的惡意樣本,使決策邊界改變。誤分類(較常見)
- [4-5]:在新收集的數據上投毒
2.1.2 預測階段的安全威脅
1. 對抗攻擊(adversarial attack)
- [6]:Szegedy 等人首先發現對圖片添加輕微擾動可以欺騙 NN,精心製作使模型錯分類的樣本—對抗樣本(adversarial example,之後簡稱爲AE)。
對抗攻擊可以分爲白盒攻擊和黑盒攻擊。
2. 白盒攻擊(white-box attack)
已知模型的結構和參數。
- [6]:L-BFGS 優化算法,將 AE 作爲輸入,將 AE 問題轉化爲優化問題。
- [7]:非針對目標攻擊(non-targeted attack)。
- [8]:FGSM 攻擊。Goodfellow 等首次提出 AE 大多存在模型的決策邊界附近。
- [9]:在 FGSM 基礎上提出 BIM,快速生成 AE 的方法。
- [10]:Deepfool 方法,迭代計算生成最小規範對抗擾動。
- [11]:JSMA,限制擾動 範數。
3. 黑盒攻擊(black-box attack)
利用 API 訪問目標模型
-
[12]:詢問攻擊(Oracle attack)。通過觀察特定的輸入、特定的輸出信息,建立與目標模型相似的模型進行攻擊。
-
[13-15]:對抗樣本可遷移性(transferability)
-
小結:黑盒攻擊相較白盒攻擊會弱一些。
參考文獻
-
[1] BIGGIO B, NELSON B, LASKOV P. Support vector machines under adversarial label noise[J]. Journal of Machine Learning Research, 2011, 20(3):97-112.
-
[2] BIGGIO B, NELSON B, LASKOV P. Poisoning attacks against support vector machines[C]//International Coference on International Conference on Machine Learning. 2012: 1467-1474.
-
[3] MEI S, ZHU X. Using machine teaching to identify optimal training-set attacks on machine learners[C]//AAAI. 2015: 2871-2877.
-
[4] BIGGIO B, DIDACI L, FUMERA G, et al. Poisoning attacks to compromise face templates[C]//International Conference on Biometrics. 2013: 1-7.
-
[5] KLOFT M, LASKOV P. Security analysis of online anomaly detection[J]. Journal of Machine Learning Research, 2010, 13(1):3681-3724.
-
[6] C. SZEGEDY, W. ZAREMBA, I. SUTSKEVER, et al. Intriguing properties of neural networks[C]//2014 International Conference on Learning Representations. Computational and Biological Learning Society. 2014.
-
[7] PAPERNOT N, MC D P, SINHA A, et al. Towards the science of security and privacy in machine learning[J]. arXiv preprint arXiv: 1611.03814, 2016.
-
[8] GOODFELLOW I J, SHLENS J, SZEGEDY C. Explaining and harnessing adversarial examples[C]//International Conference on Learning Representations. 2015.
-
[9] KURAKIN A, GOODFELLOW I, BENGIO S. Adversarial machine learning at scale[J]. arXiv preprint arXiv:1611.01236, 2017.
-
[10] MOOSAVI-DEZFOOLI S, FAWZI A, FROSSARD P. DeepFool: a simple and accurate method to fool deep neural networks[C]//IEEE Conference on Computer Vision and Pattern Recognition. 2016:2574-2582.
-
[11] PAPERNOT N, MCDANIEL P, JHA S, et al. The limitations of deep learning in adversarial settings[C]//IEEE European Symposium on Security and Privacy. 2016:372-387.
-
[12] LOWD D, MEEK C. Adversarial learning[C]//The eleventh ACM SIGKDD International Conference on Knowledge Discovery in Data Mining. 2005: 641-647.
-
[13] MOOSAVI-DEZFOOLI S M, FAWZI A, FAWZI O, et al. Universal adversarial perturbations[C]//IEEE Conference on Computer Vision and Pattern Recognition. 2017.
-
[14] PAPERNOT N, MCDANIEL P, GOODFELLOW I, et al. Practical black-box attacks against machine learning[C]//2017 ACM on Asia Conf on Computer and Communications Security. 2017:506-519.
-
[15] PAPERNOT N, MCDANIEL P, GOODFELLOW I. Transferability in machine learning: from phenomena to black-box attacks using adversarial samples[J]. arXiv preprint arXiv: 1605.07277, 2016.