【閱讀筆記】Layer-wise relevance propagation for neural networks with local renormalization layers

Binder, Alexander, et al. “Layer-wise relevance propagation for neural networks with local renormalization layers.” International Conference on Artificial Neural Networks. Springer, Cham, 2016.

本文是探究的是圖片上的像素與最終結果的相關性。創新點是把 Layer-wise Relevance Propagation (LRP) 擴展到了非線性映射上。

Layer-wise Relevance Propagation for Neural Networks

在神經網絡中,每一層的輸出xjx_j都是輸入xix_i和激活函數gg的結果(作者寫着主要是約定一下各個符號的意思):
xj=g(Iwijxi+b)x_j=g(\sum_{I}w_{ij}x_i+b)

給定一個圖像xx和分類器ffxx上每一個像素pp都有一個 pixel-wise relevance score Rp(1)R^{(1)}_p使得:
f(x)=pRp(1)f(x)=\sum_pR^{(1)}_p

如果我們已知l+1l+1層的相關性Rj(l+1)R^{(l+1)}_j,我們先它分解成信息Rij(l,l+1)R^{(l,l+1)}_{i\leftarrow j}
Rj(l+1)=iRij(l,l+1)R^{(l+1)}_j=\sum_iR^{(l,l+1)}_{i\leftarrow j}

那麼對於ll層的想關係我們有:
Ri(l)=jRij(l,l+1)R^{(l)}_i=\sum_jR^{(l,l+1)}_{i\leftarrow j}

上面兩個式子定義了相關性的傳播過程。在 LRP 中,Rij(l,l+1)R^{(l,l+1)}_{i\leftarrow j}的計算工程有如下的結構:
Rij(l,l+1)=vijRjl+1 with ivij=1R^{(l,l+1)}_{i\leftarrow j}=v_{ij}R^{l+1}_j~with~\sum_iv_{ij}=1

具體有兩種規則,先定義zij=(wijxi)pz_{ij}=(w_{ij}x_i)^pzj=kzkjz_j=\sum_kz_{kj}ϵ\epsilon-rule 定義:
Rij(l,l+1)=zijzj+ϵsign(zj)Rjl+1R^{(l,l+1)}_{i\leftarrow j}=\frac{z_{ij}}{z_j+\epsilon\cdot sign(z_j)}R^{l+1}_j

ϵ\epsilon是個很小的數防止分母爲0。β\beta-rule 定義爲:
Rij(l,l+1)=((1+β)zij+zj++βzijzj)Rjl+1R^{(l,l+1)}_{i\leftarrow j}=((1+\beta)\frac{z^+_{ij}}{z^+_{j}}+\beta\frac{z^-_{ij}}{z^-_{j}})R^{l+1}_j

正負號表示zz取正負時的對應值,β\beta越大(e.g.,β=1\beta=1)越是反推回去的熱力圖越尖銳

Extending LRP to local renormalization layers

上面兩種傳播方式都可以看作是激活函數的 Taylor expansion,感覺這的推導不是很有說服力,把 normalization 泰勒展開,然後重新計算不同節點的貢獻。
在這裏插入圖片描述

總體思路

相當於把結果反向傳播回像素,定義好規則來進行反向傳播。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章