Obfuscated Gradients Give a False Sense of Security: Circumventing Defenses to Adversarial Examples

文章目錄

Athalye A, Carlini N, Wagner D, et al. Obfuscated Gradients Give a False Sense of Security: Circumventing Defenses to Adversarial Examples[J]. arXiv: Learning, 2018.

@article{athalye2018obfuscated,
title={Obfuscated Gradients Give a False Sense of Security: Circumventing Defenses to Adversarial Examples},
author={Athalye, Anish and Carlini, Nicholas and Wagner, David},
journal={arXiv: Learning},
year={2018}}

概

由於有很多defense方法都是基於破壞梯度(不能有效計算梯度, 梯度爆炸, 消失), 但是作者提出一種算法能夠攻破這一類方法, 並提議以後的defense方法不要以破壞梯度爲前提.

主要內容

$f(\cdot)$ : 模型;
$f(x)_i$ : 樣本 $x$ 爲類別 $i$ 的概率;
$f^j(\cdot)$ : 第 $j$ 層;
$f^{1..j}(\cdot)$ : 第 $1$ 到 $j$ 層;
$c(x)$ : $\arg \max_i f(x)_i$ ;
$c^*(x)$ : 真實標籤.

Obfuscated Gradients

Shattered Gradients: 一些不可微的defense, 或者一些令導數不存在的defense造成;
Stochastic Gradients: 一些隨機化的defense造成;
Exploding & Vanishing Gradients: 通常由一些包括多次評估的defense造成.

BPDA

特例

有很多方法, 會構建一個不可微(或者其導數"不好用")的函數 $g$ , 然後用模型 $f(g(x))$ 替代 $f(x)$ , 從而防禦一些基於梯度的攻擊方法, 而且這類方法往往要求 $g(x) \approx x$ .

這類防禦方法, 可以很簡單地用
$\nabla_x f(g(x))|_{x=\hat{x}} \leftarrow \nabla_x f(x)|_{x=g(\hat{x})},$
替代, 從而被攻破(如果我們把 $g(x)$ 視爲模型的第1層, 那我們實際上就是攻擊第二層).

一般情形

假設 $f^i(x)$ (即第i層)是不可微, 或者導數“不好用", 則我們首先構造一個可微函數 $g(x)$ , 使得 $g(x) \approx f^i(x)$ , 在反向傳遞導數的時候(注意只在反向用到 $g$ ), 用 $\nabla_x g$ 替代 $\nabla f^i(x)$ .

注: 作者說在前向也用 $g(x)$ 是低效的.

EOT

這類方法使用於攻破那些隨機化的defense的, 這類方法往往會從一個變換集合 $T$ 中採樣 $t$ , 並建立模型 $f(t(x))$ , 如果單純用 $\nabla f(t(x))$ 來攻擊效果不好, 可以轉而用 $\nabla \mathbb{E}_{t \sim T} f(t(x)) = \mathbb{E}_{t \sim T} \nabla f(t(x))$ 替代.

Reparameterization

重參用於針對梯度爆炸或者消失的情況, 因爲這種情況往往出現於 $f(g(x))$ , 而 $g(x)$ 是對 $x$ 的一個多次評估(所以 $f(g(x))$ 可以理解爲一個很深的網絡).

策略是利用構建 $x=h(z)$ , 並且滿足 $g(h(z))=h(z)$ (咋看起來很奇怪, 看了下面的DefenseGAN就明白了).

利用 $f(h(z))$ , 我們找到對應的對抗樣本 $h(z_{adv})$ .

具體的案例

Thermometer encoding

這裏的 $\tau$ 是針對樣本每一個元素 $x_{i,j,c}$ 的, $\tau:x_{i,j,c} \rightarrow \mathbb{R}^l$ :
$\tau(x_{i, j, c})_k= \left \{ \begin{array}{ll} 1 & x_{i,j,c}>k/l \\ 0 & else. \end{array} \right.$

只需令
$g(x_{i,j,c})_k= \min (\max (x_{i, j, c} - k/l, 0),1).$

Input transformations

包括:
image cropping, rescaling, bit-depth reduction, JPEG compression, image quilting

既包括隨機化又包括了不可微, 所以既要用EPDA, 也要用EOT.

LID

LID能夠防禦
$\min \quad \| x-x'\|_2^2 + \alpha(\ell(x')+\mathrm{LID_{loss}} (x')),$
的攻擊的主要原因是由於該函數陷入了局部最優. 因爲LID高的樣本不都是對抗樣本, 也有很多普通樣本.
忽視LID, 用原始的L2attack就能夠有效攻破LID.

Stochastic Activation Pruning

SAP實際上是dropout的一個變種, SAP會隨機將某層的 $f^i$ 的某些元素突變爲0(其概率正比於元素的絕對值大小).

這個方法可以用EOT攻破, 即用 $\sum_{i=1}^k \nabla_xf(x)$ 來代替 $\nabla_x f(x)$ .

Mitigating through randomization

這個方法的輸入是 $229\times 229$ 的圖片, 他會被隨機變換到 $r\times r$ 大小, $r\in[229, 331)$ , 並隨機補零使得其大小爲 $331\times 331$ .

同樣, 用EOT可以攻破.

PixelDefend

pass

DenfenseGAN

對於每一個樣本, 首先初始化 $R$ 個隨機種子 $z_0^{(1)}, \ldots, z_0^{(R)}$ , 對每一個種子, 利用梯度下降( $L$ 步)以求最小化
$\tag{DGAN} \min \quad \|G(z)-x\|_2^2,$
其中 $G(z)$ 爲利用訓練樣本訓練的生成器.

得到 $R$ 個點 $z_*^{(1)},\ldots, z_*^{(R)}$ , 設使得(DGAN)最小的爲 $z^*$ , 以及 $\hat{x} = G(z^*)$ , 則 $\hat{x}$ 就是我們要的, 樣本 $x$ 在普通樣本數據中的投影. 將 $\hat{x}$ 喂入網絡, 判斷其類別.

這個方法, 利用梯度方法更新的難處在於, $x \rightarrow \hat{x}$ 這一過程, 包含了 $L$ 步的內循環, 如果直接反向傳梯度會造成梯度爆炸或者消失.

所以攻擊的策略是:

$\min \quad \|G(z)-x\|_2^2 + c \cdot \ell (G(z))$
找到 $z_{adv}$ , 於是 $x_{adv}=G(z_{adv})$ .

注意, 通過這個式子能找到對抗樣本說明, 由訓練樣本訓練生成器, 生成器的分佈 $p_G$ , 實際上並不能能夠撇去對抗樣本.

Obfuscated Gradients Give a False Sense of Security: Circumventing Defenses to Adversarial Examples

文章目錄

概

主要內容

Obfuscated Gradients

BPDA

特例

一般情形

EOT

Reparameterization

具體的案例

Thermometer encoding

Input transformations

LID

Stochastic Activation Pruning

Mitigating through randomization

PixelDefend

DenfenseGAN

如何使用 JS 判斷用戶是否處於活躍狀態

通過HPA+CronHPA組合應對業務複雜彈性伸縮場景

❤️‍🔥 Solon Cloud Event 新的事務特性與應用

Max-Mahalanobis Linear Discriminant Analysis Networks

KKT (LICQ)

Differential Evolution: A Survey of the State-of-the-Art

Bayesian Optimization with a Finite Budget: An Approximate Dynamic Programming Approach

Geometric GAN

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結