Binder, Alexander, et al. “Layer-wise relevance propagation for neural networks with local renormalization layers.” International Conference on Artificial Neural Networks. Springer, Cham, 2016.
本文是探究的是圖片上的像素與最終結果的相關性。創新點是把 Layer-wise Relevance Propagation (LRP) 擴展到了非線性映射上。
Layer-wise Relevance Propagation for Neural Networks
在神經網絡中,每一層的輸出xj都是輸入xi和激活函數g的結果(作者寫着主要是約定一下各個符號的意思):
xj=g(I∑wijxi+b)
給定一個圖像x和分類器f,x上每一個像素p都有一個 pixel-wise relevance score Rp(1)使得:
f(x)=p∑Rp(1)
如果我們已知l+1層的相關性Rj(l+1),我們先它分解成信息Ri←j(l,l+1):
Rj(l+1)=i∑Ri←j(l,l+1)
那麼對於l層的想關係我們有:
Ri(l)=j∑Ri←j(l,l+1)
上面兩個式子定義了相關性的傳播過程。在 LRP 中,Ri←j(l,l+1)的計算工程有如下的結構:
Ri←j(l,l+1)=vijRjl+1 with i∑vij=1
具體有兩種規則,先定義zij=(wijxi)p,zj=∑kzkj,ϵ-rule 定義:
Ri←j(l,l+1)=zj+ϵ⋅sign(zj)zijRjl+1
ϵ是個很小的數防止分母爲0。β-rule 定義爲:
Ri←j(l,l+1)=((1+β)zj+zij++βzj−zij−)Rjl+1
正負號表示z取正負時的對應值,β越大(e.g.,β=1)越是反推回去的熱力圖越尖銳
Extending LRP to local renormalization layers
上面兩種傳播方式都可以看作是激活函數的 Taylor expansion,感覺這的推導不是很有說服力,把 normalization 泰勒展開,然後重新計算不同節點的貢獻。
總體思路
相當於把結果反向傳播回像素,定義好規則來進行反向傳播。