3.《SEMI-SUPERVISED CLASSIFICATION WITH GRAPH CONVOLUTIONAL NETWORKS》論文理解

《SEMI-SUPERVISED CLASSIFICATION WITH GRAPH CONVOLUTIONAL NETWORKS》 中,作者對《Convolutional Neural Networks on Graphs
with Fast Localized Spectral Filtering》
作出了改進,提出了以下創新:
(1)提出了一個可以直接在圖上操作的神經網絡模型的逐層傳播規則;
(2)證明了這種形式的圖卷積網絡怎樣在圖上實現半監督的節點分類;

1.神經網絡模型的逐層傳播規則
卷積公式的頻域表示:
gx=UgθUTx(1)g*x=Ug_{\theta}U^{T}x\tag{1}

定義LL爲對稱歸一化圖拉普拉斯矩陣,L=IND12AD12=UΛUTL=I_{N}-D^{-\frac{1}{2}}AD^{-\frac{1}{2}}=U\Lambda U^{T},AA是無向圖的鄰接矩陣(可以是二值,也可以是權值)Dii=jAijD_{ii}=\sum_{j}{A_{ij}}是圖的度矩陣。UULL特徵向量矩陣。LL的特徵值範圍爲[0,1]。
由論文《Convolutional Neural Networks on Graphs with Fast Localized Spectral Filtering》得到,式(1)可以推導爲:
gθ(Λ)k=0KθkTk(Λ~)(2)g_{\theta^{'}}(\Lambda) \approx \sum_{k=0}^{K}{\theta_{k}^{'}}T_{k}(\tilde\Lambda)\tag{2}

其中Λ~=2λmaxΛIN\tilde\Lambda=\frac{2}{\lambda_{max}}\Lambda-I_{N},θRK\theta^{'}\in R^{K}是切比雪夫係數。得到:gxk=0KθkTk(L~)xg*x \approx \sum_{k=0}^{K}{\theta_{k}^{'}}T_{k}(\tilde L)x,其中L~=2λmaxLIN\tilde L=\frac{2}{\lambda_{max}}L-I_{N}L~\tilde L的特徵值範圍爲[-1,1]。
當使用K=1K=1時,式(2)在頻域變爲線性函數,即:
gxθ0x+θ1(2λmaxLIN)x(3)g*x\approx \theta_{0}^{'}x+\theta_{1}^{'}(\frac{2}{\lambda_{max}}L-I_{N})x\tag{3}

λmax2\lambda_{max}\approx2,則
gxθ0x+θ1(LIN)x=θ0xθ1(D12AD12)x(4)g*x\approx \theta_{0}^{'}x+\theta_{1}^{'}(L-I_{N})x=\theta_{0}^{'}x-\theta_{1}^{'}(D^{-\frac{1}{2}}AD^{-\frac{1}{2}})x\tag{4}

由於θ0,θ1\theta_{0}^{'},\theta_{1}^{'}是訓練參數,是可調整的,使得θ0=θ1=θ\theta_{0}^{'}=-\theta_{1}^{'}=\theta,那麼
gxθ(IN+D12AD12)x(5)g*x\approx \theta(I_{N}+D^{-\frac{1}{2}}AD^{-\frac{1}{2}})x\tag{5}

IN+D12AD12I_{N}+D^{-\frac{1}{2}}AD^{-\frac{1}{2}}的特徵值範圍爲[0,2],可能會導致梯度消失和梯度爆炸的問題,將IN+D12AD12I_{N}+D^{-\frac{1}{2}}AD^{-\frac{1}{2}}再次歸一化爲D~12A~D~12\tilde D^{-\frac{1}{2}}\tilde A\tilde D^{-\frac{1}{2}},其中,A=~A+INA\tilde = A+I_{N},D~ii=jA~ij\tilde D_{ii}=\sum_{j}\tilde A_{ij},可以有效的避免這個問題,同時由於θ\theta爲一個數,可以放到等式的最後,得到:
gx(D~12A~D~12)xθ(6)g*x\approx(\tilde D^{-\frac{1}{2}}\tilde A\tilde D^{-\frac{1}{2}})x \theta\tag{6}

當信號xx爲多通道信號XRN×CX\in R^{N×C}時,並且使用FF個卷積核,使得每個輸出節點的通道數爲FF,則:
Z=(D~12A~D~12)XΘ(7)Z=(\tilde D^{-\frac{1}{2}}\tilde A\tilde D^{-\frac{1}{2}})X\Theta\tag{7}

CC爲輸入節點的通道數,FF爲輸出節點的通道數,同時也是卷積核數目;ΘRC×F\Theta \in R^{C×F}爲這FF個卷積核的參數。

2.半監督的節點分類
D~12A~D~12=A^Θ=W\tilde D^{-\frac{1}{2}}\tilde A\tilde D^{-\frac{1}{2}}=\hat A,\Theta=W,則兩層的圖卷積分類網絡可以表示爲:
Z=f(X,A)=softmax(A^ ReLU(A^XW(0))W(1))(8)Z=f(X,A)=softmax(\hat A\ ReLU(\hat AXW^{(0)})W^{(1)})\tag8
在這裏插入圖片描述
需要說明的是,一個圖就是一個樣本,每個樣本在逐層傳播的過程中認爲A^\hat A是一樣的,也就是說每層中A^\hat A是共享的。softmax(xij)=exp(xij)jexp(xij)softmax(x_{ij})=\frac{exp(x_{ij})}{\sum_{j}exp(x_{ij})}i[1,N],j[1,F],xiR1×Fi \in [1,N],j \in [1,F],x_{i} \in R^{1×F}表示兩層卷積後輸出(RN×F)(R^{N×F})的第ii行。交叉熵爲L=lYLf=1FYlflnZlfL=-\sum_{l\in Y_{L}}\sum_{f=1}^{F}Y_{lf}lnZ_{lf},其中YLY_{L}是有標籤節點的集合。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章