Group Equivariant Convolutional Networks

Group Equivariant Convolutional Networks

Cohen T, Welling M. Group equivariant convolutional networks[C]//International conference on machine learning. 2016: 2990-2999.
https://github.com/tscohen/gconv_experiments

傳統的卷積具有平移不變性(translation symmetry):對輸入圖片進行平移後再輸入網絡,得到的輸出與未平移的輸出仍然滿足平移關係

提取不變性的數學表達式:
在這裏插入圖片描述
x表示輸入,TgT_g表示變換,Φ\Phi表示特徵提取過程(即卷積過程),上式的含義是輸入x經過平移變換得到TgxT_gx,對TgxT_gx提取特徵,等價於:直接對x提取特徵再進行TgT_g'變換。對於平移不變性而言,這邊的變換TgT_gTgT_g'等價,均爲平移變換。

進一步理解不變性:
在這裏插入圖片描述根據上圖,有兩張臉x和y,兩者經過特徵提取之後映射到同一個點Φ(x)=Φ(y)\Phi(x)=\Phi(y),假設對這兩張臉進行變換Tg1T_g^1,得到旋轉後的臉Tg1xT_g^1xTg1yT_g^1y,再進行特徵提取,得到Φ(Tg1x)\Phi(T_g^1x)Φ(Tg1y)\Phi(T_g^1y),根據變換不變性:Φ(Tgx)=TgΦ(x)\Phi(T_gx)=T_g'\Phi(x),有:

Φ(Tg1x)=Tg2Φ(x)\Phi(T_g^1x)=T_g^2\Phi(x)

Φ(Tg1y)=Tg2Φ(y)\Phi(T_g^1y)=T_g^2\Phi(y)

又因爲Φ(x)=Φ(y)\Phi(x)=\Phi(y),所以得到Φ(Tg1x)=Φ(Tg1y)\Phi(T_g^1x)=\Phi(T_g^1y),即:旋轉之後再提取特徵,兩張臉還是能夠被映射到同一個點,即具有旋轉不變性

那麼,爲什麼傳統的CNN會具有平移不變性呢? 作者對此進行了如下推導:
首先傳統CNN的卷積過程可以表示爲:
在這裏插入圖片描述

上面的式子表示卷積,下面的式子表示相關(correlation),兩者應用於CNN時從訓練結果上講是等價的。x表示座標,f表示特徵圖,ll表示第ll層,KlK^l表示通道數,ψ\psi表示卷積核,上式表現了一個卷積核ψ\psi在特徵圖上卷積的過程。

那麼,假設對輸入的特徵圖f做位移:yy+ty\rightarrow y+t,可以得到以下推導過程:
在這裏插入圖片描述

LtL_t表示進行位移t的變換,上式表明:先對特徵圖f進行位移t的變換再通過卷積核ψ\psi提取特徵,等價於:先通過卷積核ψ\psi提取特徵,再進行位於t的變換。由此,得到位移不變性。

那麼,爲什麼傳統的CNN沒有旋轉不變性呢? 作者進行了對應的旋轉變換的推導證明[[Lrf]ψ](x)=Lr[f[Lr1ψ]](x)[[L_rf]*\psi](x) = L_r[f*[L_{r^{-1}}\psi]](x):

[[Lrf]ψ](x)=yf(Ary)ψ(yx)=yf(y)ψ(Ar1yx)=yf(y)ψ(Ar1(yArx))=Lr[f[Lr1ψ]](x)[[L_rf]\star\psi](x) =\sum_{y}f(A_ry)\psi(y-x)=\sum_{y}f(y)\psi(A^{-1}_ry-x)=\sum_{y}f(y)\psi(A^{-1}_r(y-A_rx))=L_r[f\star[L_{r^{-1}}\psi]](x)

其中,ArA_r表示旋轉矩陣。
直觀上理解,若對特徵圖進行旋轉之後再進行卷積,等價於:對卷積核做反向的旋轉,再對原始特徵圖進行卷積,再把卷積得到的結果旋轉回來。這與不變性的定義不符(按照不變性的定義,應該是等價於:特徵圖直接與卷積核卷積,再進行旋轉),因此,傳統的CNN沒有旋轉不變性。

以下是腦洞(存在問題):
假設我們定義一個新的卷積操作:
[fψi](θ)=yZ2k=1Klfk(y)ψki(Aθ1y)[f\diamond\psi^i](\theta)=\sum_{y\in \mathbb{Z}^2}\sum_{k=1}^{K^l}f_k(y)\psi_k^i(A_\theta^{-1} y)
其中,AθA_\theta表示旋轉角度爲θ\theta的旋轉矩陣。
根據這個卷積操作,推導旋轉不變性:
[[Lrf]ψ](θ)=yf(Ary)ψ(Aθ1y)=yf(y)ψ(Ar1Aθ1y)=yf(y)ψ(A(θ+r)1y)=Lr[fψ](θ)[[L_rf]\diamond\psi](\theta) =\sum_{y}f(A_ry)\psi(A_\theta^{-1} y)=\sum_{y}f(y)\psi(A^{-1}_rA_\theta^{-1} y)=\sum_{y}f(y)\psi(A_{(\theta+r)}^{-1} y)=L_r[f\diamond\psi](\theta)

作者由此提出了G-CNN,定義了一個新的卷積操作:
在這裏插入圖片描述
其中gGg\in G,表示變換的集合,在第一層之後,上式各函數可以定義在離散集合GG上:
在這裏插入圖片描述

推導不變性,huhh\rightarrow uh:
在這裏插入圖片描述

這篇文章的主要思想如上。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章