《機器學習安全及隱私保護研究進展》學習筆記



1. 攻擊者模型(Adversary Model)

原文中,將 adversary model 翻譯成“敵手”,我覺得不是很恰當,這裏直譯爲攻擊者。

1.1 攻擊者目標(從 CIA 三方面來看)

  • 機密性
  • 完整性
  • 可用性

1.2 攻擊者知識

  • 訓練數據(training data)
  • 模型架構(model structure)
  • 參數(parameters)
  • 決策函數(decision function)
    • 黑盒模型(black-box)
    • 白盒模型(white-box)

1.3 攻擊者能力

  • 數據控制能力的不同:

    • 強攻擊者
    • 弱攻擊者
  • 訓練階段中:

    • 訪問訓練數據
    • 注入惡意數據
    • 直接修改數據

1.4 攻擊者策略

  • 爲達到攻擊目標,採取的具體攻擊方式


2. 機器學習安全威脅及防禦技術

2.1 機器學習常見的安全性威脅:

2.1.1 訓練階段的安全威脅

1. 投毒攻擊(poisoning attack)
  • [1]:隨機修改40%訓練數據標籤,在二分類中無法正常分類(SVM)。
  • [2-3]:注入精心製作的惡意樣本,使決策邊界改變。誤分類(較常見)
  • [4-5]:在新收集的數據上投毒

2.1.2 預測階段的安全威脅

1. 對抗攻擊(adversarial attack)
  • [6]:Szegedy 等人首先發現對圖片添加輕微擾動可以欺騙 NN,精心製作使模型錯分類的樣本—對抗樣本(adversarial example,之後簡稱爲AE)。

對抗攻擊可以分爲白盒攻擊和黑盒攻擊。

2. 白盒攻擊(white-box attack)

已知模型的結構和參數。

  • [6]:L-BFGS 優化算法,將 AE 作爲輸入,將 AE 問題轉化爲優化問題。
  • [7]:非針對目標攻擊(non-targeted attack)。
  • [8]:FGSM 攻擊。Goodfellow 等首次提出 AE 大多存在模型的決策邊界附近。
  • [9]:在 FGSM 基礎上提出 BIM,快速生成 AE 的方法。
  • [10]:Deepfool 方法,迭代計算生成最小規範對抗擾動。
  • [11]:JSMA,限制擾動 L0L_0 範數。
3. 黑盒攻擊(black-box attack)

利用 API 訪問目標模型

  • [12]:詢問攻擊(Oracle attack)。通過觀察特定的輸入、特定的輸出信息,建立與目標模型相似的模型進行攻擊。

  • [13-15]:對抗樣本可遷移性(transferability)

  • 小結:黑盒攻擊相較白盒攻擊會弱一些。


參考文獻

  • [1] BIGGIO B, NELSON B, LASKOV P. Support vector machines under adversarial label noise[J]. Journal of Machine Learning Research, 2011, 20(3):97-112.

  • [2] BIGGIO B, NELSON B, LASKOV P. Poisoning attacks against support vector machines[C]//International Coference on International Conference on Machine Learning. 2012: 1467-1474.

  • [3] MEI S, ZHU X. Using machine teaching to identify optimal training-set attacks on machine learners[C]//AAAI. 2015: 2871-2877.

  • [4] BIGGIO B, DIDACI L, FUMERA G, et al. Poisoning attacks to compromise face templates[C]//International Conference on Biometrics. 2013: 1-7.

  • [5] KLOFT M, LASKOV P. Security analysis of online anomaly detection[J]. Journal of Machine Learning Research, 2010, 13(1):3681-3724.

  • [6] C. SZEGEDY, W. ZAREMBA, I. SUTSKEVER, et al. Intriguing properties of neural networks[C]//2014 International Conference on Learning Representations. Computational and Biological Learning Society. 2014.

  • [7] PAPERNOT N, MC D P, SINHA A, et al. Towards the science of security and privacy in machine learning[J]. arXiv preprint arXiv: 1611.03814, 2016.

  • [8] GOODFELLOW I J, SHLENS J, SZEGEDY C. Explaining and harnessing adversarial examples[C]//International Conference on Learning Representations. 2015.

  • [9] KURAKIN A, GOODFELLOW I, BENGIO S. Adversarial machine learning at scale[J]. arXiv preprint arXiv:1611.01236, 2017.

  • [10] MOOSAVI-DEZFOOLI S, FAWZI A, FROSSARD P. DeepFool: a simple and accurate method to fool deep neural networks[C]//IEEE Conference on Computer Vision and Pattern Recognition. 2016:2574-2582.

  • [11] PAPERNOT N, MCDANIEL P, JHA S, et al. The limitations of deep learning in adversarial settings[C]//IEEE European Symposium on Security and Privacy. 2016:372-387.

  • [12] LOWD D, MEEK C. Adversarial learning[C]//The eleventh ACM SIGKDD International Conference on Knowledge Discovery in Data Mining. 2005: 641-647.

  • [13] MOOSAVI-DEZFOOLI S M, FAWZI A, FAWZI O, et al. Universal adversarial perturbations[C]//IEEE Conference on Computer Vision and Pattern Recognition. 2017.

  • [14] PAPERNOT N, MCDANIEL P, GOODFELLOW I, et al. Practical black-box attacks against machine learning[C]//2017 ACM on Asia Conf on Computer and Communications Security. 2017:506-519.

  • [15] PAPERNOT N, MCDANIEL P, GOODFELLOW I. Transferability in machine learning: from phenomena to black-box attacks using adversarial samples[J]. arXiv preprint arXiv: 1605.07277, 2016.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章