Distillation as a Defense to Adversarial Perturbations against Deep Neural Networks

原創

2020-06-22 11:32

文章目錄

代碼

Nicolas Papernot, Patrick McDaniel, Xi Wu, Somesh Jha, Ananthram Swami, Distillation as a Defense to Adversarial Perturbations against Deep Neural Networks.

概

本文提出一種distillation model, 能夠免疫大部分的adversarial attacks, 具有良好的魯棒性, 同時容易訓練.

主要內容

符號	說明
$F(\cdot)$	神經網絡, 且 $F(X)=\mathrm{softmax^*}(Z(X))$ .
$X \in \mathcal{X}$	樣本
$Y$	樣本對應的標籤
$F^d$	distilled network
$T$	temperature

注: 這裏的 $\mathrm{softmax}^*(z)_i:=\frac{e^{z_i/T}}{\sum_j e^{e_j/T}}, i= 0,\ldots, N-1$ ;
注: $F^d$ 與 $F$ 網絡結構一樣;

算法

Input: $T$ ，訓練數據 $(X,Y)$ .

在訓練數據 $(X, Y)$ 上訓練得到 $F$ ;
得到新的訓練數據 $(X, F(X))$ ;
利用 $(X, F(X))$ 訓練 $F^d$ ;
修改 $F^d$ 的最後一層 $T=1$ .

Output: $F^d$ .

爲什麼這個算法是有效的呢?

訓練 $F^d$ 用的標籤是概率向量 $F(X)$ , 拿數字舉例, 如果寫的草一點 $7$ 和 $1$ 是很相近的, 但如果訓練的標籤是 $(0,0,0,0,0,0,1,0,0,0)$ 的話反而不符合實際, 會導致不穩定;
當 $T$ 比較大的時候(訓練):
$\frac{\partial F_i(X)}{\partial X_j}|_T = \frac{1}{T}\frac{e^{z_i / T}}{g^2(X)}\big( \sum_{l=1^N}(\frac{\partial z_i}{\partial X_j}-\frac{\partial z_l}{\partial X_j})e^{z_l /T}\big),$
會比較小，其中 $g(X)=\sum_{l=0}^{N-1} e^{z_l(X)/T}$ .
在測試的時候, 我們令 $T=1$ , 假設 $X$ 在原先情況下 $z_1/T$ 最大, $z_2/T$ 次大, 則
$\epsilon=z_2/T-z_1/T= 0 + \mathbf{Tr}(\mathcal{G}^T \delta X) + o(\delta x),$
則
$T\epsilon=z_2-z_1= 0 + T \cdot \mathbf{Tr}(\mathcal{G}^T \delta X) + o(\delta x),$
其中 $\mathcal{G}$ 爲 $z_2-z_1$ 在 $X$ 處的負梯度.

一些有趣的指標

魯棒性定義

$\rho_{adv}(F)= E_{\mu}[\Delta_{adv}(X,F)],$
其中 $\mu$ 爲樣本的分佈
$\Delta_{adv}(X,F) = \arg \min_{\delta X} \{ \| \delta X\| : F(X+\delta X) \not = F(X) \}.$
可採用下式來實際估計
$\rho_{adv}(F) \approx \frac{1}{|\mathcal{X}|} \sum_{X \in \mathcal{X}} \min _{\delta X} \|\delta X\|.$

合格的抗干擾機制

對原有結構有較少的影響;
網絡對乾淨數據因具有相當的正確率;
較好的訓練速度;
對 $\| \delta X\|$ 較小的情況能夠免疫干擾.

原文還有一個理論分析, 但我認爲不重要, 略過.

代碼

import torch.nn as nn

class Tsoftmax(nn.Module):

    def __init__(self, T=100):
        super(Tsoftmax, self).__init__()
        self.T = T

    def forward(self, x):
        if self.train():
            return nn.functional.softmax(x / self.T)
        else:
            return nn.functional.softmax(x)

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Distillation as a Defense to Adversarial Perturbations against Deep Neural Networks

文章目錄

概

主要內容

算法

一些有趣的指標

魯棒性定義

合格的抗干擾機制

代碼

HTML頁面關於高分屏的設置

北歐瑞典挪威芬蘭瑞士TikTok海外網紅與YouTube博主的合作模式

歐洲英國德國法國TikTok與YouTube海外網紅達人的完美合作策略

druid數據源 xml配置

Max-Mahalanobis Linear Discriminant Analysis Networks

KKT (LICQ)

Differential Evolution: A Survey of the State-of-the-Art

Bayesian Optimization with a Finite Budget: An Approximate Dynamic Programming Approach

Geometric GAN

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結