Pang T, Du C, Zhu J, et al. Max-Mahalanobis Linear Discriminant Analysis Networks[C]. international conference on machine learning, 2018: 4013-4022.
@article{pang2018max-mahalanobis,
title={Max-Mahalanobis Linear Discriminant Analysis Networks},
author={Pang, Tianyu and Du, Chao and Zhu, Jun},
pages={4013–4022},
year={2018}}
概
本文介紹了從最大化馬氏距離的角度提出了一種defense.
主要內容
對於倆個分佈來說, 區分樣本屬於哪一個分佈, 最好的分類器就是貝葉斯分類, 特別的, 如果是高斯分佈, 且協方差矩陣一致, 則其分類平面爲
w T ( x − x 0 ) = 0 ,
w^T(x-x_0)=0,
w T ( x − x 0 ) = 0 ,
其中
w = Σ − 1 ( μ 1 − μ 2 ) ,
w=\Sigma^{-1} (\mu_1 - \mu_2),
w = Σ − 1 ( μ 1 − μ 2 ) ,
x 0 = 1 μ 1 + μ 2 − ln ( P ( w 1 ) P ( w 2 ) ) μ 1 − μ 2 ∥ μ 1 − μ 2 ∥ Σ − 1 2 .
x_0=\frac{1}{\mu_1+\mu_2} - \ln (\frac{P(w_1)}{P(w_2)}) \frac{\mu_1-\mu_2}{\|\mu_1-\mu_2\|_{\Sigma^{-1}}^2}.
x 0 = μ 1 + μ 2 1 − ln ( P ( w 2 ) P ( w 1 ) ) ∥ μ 1 − μ 2 ∥ Σ − 1 2 μ 1 − μ 2 .
特別的, 當Σ \Sigma Σ 爲對角矩陣的時候, 其分類平面只與μ 1 − μ 2 \mu_1-\mu_2 μ 1 − μ 2 有關.
設一個混合高斯分佈:
P ( y = i ) = π i , P ( x ∣ y = i ) = N ( μ i , Σ ) , i ∈ [ L ] : = 1 , … , L ,
P(y=i)=\pi_i, P(x|y=i)=\mathcal{N}(\mu_i, \Sigma), \quad i \in [L]:=1,\ldots,L,
P ( y = i ) = π i , P ( x ∣ y = i ) = N ( μ i , Σ ) , i ∈ [ L ] : = 1 , … , L ,
並定義
Δ i , j : = [ ( μ i − μ j ) T Σ − 1 ( μ i − μ j ) ] 1 / 2 .
\Delta_{i,j} := [(\mu_i-\mu_j)^T \Sigma^{-1} (\mu_i - \mu_j)]^{1/2}.
Δ i , j : = [ ( μ i − μ j ) T Σ − 1 ( μ i − μ j ) ] 1 / 2 .
因爲神經網絡強大的擬合分佈能力, 我們可以假設Σ = I \Sigma=I Σ = I (文中將\Sigma$分解, 然後用變量替換可以得到, 馬氏距離在此情況下具有不變性, 我覺得不如直接這麼解釋比較實在).
設想, 從第i個分佈中採樣x ( i ) ∼ N ( μ i , I ) x_{(i)} \sim \mathcal{N}(\mu_i, I) x ( i ) ∼ N ( μ i , I ) , 將x ( i ) x_{(i)} x ( i ) 移動到與j j j 類的分類平面的距離設爲d ( i , j ) d_{(i,j)} d ( i , j ) ,
定理: 如果π i = π j \pi_i=\pi_j π i = π j , 則d ( i , j ) d_{(i,j)} d ( i , j ) 的期望爲
E [ d ( i , j ) ] = 2 π exp ( − Δ i , j 2 8 ) + 1 2 Δ i , j [ 1 − 2 Φ ( − Δ i , j 2 ) ] ,
\mathbb{E}[d_{(i,j)}] = \sqrt{\frac{2}{\pi}} \exp(-\frac{\Delta_{i,j}^2}{8})+\frac{1}{2} \Delta_{i,j} [1-2\Phi(-\frac{\Delta_{i, j}}{2})],
E [ d ( i , j ) ] = π 2 exp ( − 8 Δ i , j 2 ) + 2 1 Δ i , j [ 1 − 2 Φ ( − 2 Δ i , j ) ] ,
其中Φ \Phi Φ 表示正態分佈函數.
注意, 這裏的d i , j d_{i,j} d i , j 是x x x 到分類平面的距離, 也就是說, 如果x ( i ) x_{(i)} x ( i ) 如果本身就位於別的類中, 同樣也計算這個距離, 不公平, 當然如果這麼考慮, 證明起來就相當麻煩了.
如果定義
R B = min i , j ∈ [ L ] E [ d ( i , j ) ] ,
\mathrm{RB} = \min_{i,j\in [L]} \mathbb{E}[d_{(i,j)}],
R B = i , j ∈ [ L ] min E [ d ( i , j ) ] ,
則我們自然希望R B \mathrm{RB} R B 越大越好(越魯棒, 但是根據我們上面的分析, 這個定義是存在瑕疵的). 然後通過導數, 進一步發現
R B ≈ R B ˉ : = min i , j ∈ [ L ] Δ i , j / 2.
\mathrm{RB} \approx \bar{\mathrm{RB}} := \min_{i,j \in [L]} \Delta_{i,j} / 2.
R B ≈ R B ˉ : = i , j ∈ [ L ] min Δ i , j / 2 .
有定理:
所以, 作者的結論就是, 最後一層
z i = μ i T f ( x ) + b i ,
z_i =\mu_i^Tf(x)+b_i,
z i = μ i T f ( x ) + b i ,
滿足( 4 ) (4) ( 4 ) , 爲此作者設計了一個算法
去構造. 所以, 這最後一層的參數是固定不訓練的. 餘下的與普通的網絡沒有區別.