1.DualGCN模型框架

模型採用並行的兩個簡單的前饋網絡 $Conv_A,Conv_P$ ，其區別僅僅時輸入的圖結構信息不同，並且這兩個並行圖卷積的參數是共享的。首先，上面支路利用有標籤的節點計算交叉熵損失，並對網絡參數進行訓練，得到一種後驗分佈。之後逐漸增加下面支路得到的均方差損失的權值，使得兩個損失同時對模型參數產生影響。

2.局部一致性卷積

在實現局部一致性時，作者直接使用了《SEMI-SUPERVISED CLASSIFICATION WITH GRAPH CONVOLUTIONAL NETWORKS》中的1stChebNet模型：
$Z^{(i)}=Conv^{(i)}_{A}(X)=\sigma(\tilde D^{-\frac{1}{2}}\tilde A\tilde D^{-\frac{1}{2}}Z^{(i-1)}W^{(i)})\tag7$

其中， $\tilde A = A+I_{N}$ , $\tilde D_{ii}=\sum_{j}\tilde A_{ij}$ ， $\sigma(*)$ 爲激活函數。 $\tilde D^{-\frac{1}{2}}\tilde A\tilde D^{-\frac{1}{2}}Z^{(i-1)}$ 部分表示對圖中每個節點的1-鄰域信息的聚合更新，也可以成爲1-跳擴散過程。
但是，對於圖結構數據而言，不相似節點可能直接相連，也就是連通節點之間的相似度可能低於未連通節點。對於這種情況，1stChebNet模型無法處理，它對節點的鄰域信息進行聚合時需要保證相鄰節點的特徵相似。所以作者引入了全局一致性卷積來解決這個問題。

3.全局一致性卷積

作者設計通過概率統計的方式獲取了一種新的可以代表圖的結構信息的頻率矩陣 $F$ ，利用逐點互信息（Pointwise mutual information）的方法構建了PPMI（positive pointwise mutual information）矩陣。
每個節點的轉移概率可以由等式（8）計算得到：
$p(s(t+1)=x_j|s(t)=x_i)=A_{ij}/\sum_{j}{A_{ij}}\tag8$

獲得頻率矩陣 $F$ :
（1）確定節點的隨機遊走長度 $\gamma$ ，採樣次數 $w$ ，初始化頻率矩陣F值爲0。
（2）以節點 $x_i$ 爲起點，開始以0爲步長隨機遊走，得到所有可能的情況，表示爲點對集合 $S=\{{(x_n,x_m)}\}$ ，接着以等式（8）作爲概率採樣 $w$ 次，得到 $w$ 對點對。
（3）對於點對 $(x_n,x_m)$ ，在頻率矩陣中對應位置 $F_{n,m},F_{m,n}$ 對應加1。
（4）將遊走步長1逐漸變化到 $\gamma$ ，循環(2)(3)步驟。
（5）對於所有的節點，執行(2)(3)(4)步驟得到頻率矩陣F。
僞代碼如下：

構建PPMI矩陣P：
PMI是一種用來衡量兩個事物之間相似性的指標：
$PMI(x,y)=lb\frac{p(xy)}{p(x)p(y)}$

其中 $p(xy)$ 表示事件 $x$ 和 $y$ 同時發生的概率， $p(x),p(y)$ 分別表示事件 $x,y$ 發生的概率。由概率論可知，如果下 $x,y$ 不相關，則 $p(xy)=p(x)p(y)$ ，當 $x,y$ 正相關時， $PMI(x,y)>0$ ,當 $x,y$ 負相關時， $PMI(x,y)<0$ 。
利用式（9.1），得到節點 $i,j$ 之間擴散的概率。
$p(ij)=p_{i,j}=\frac{F_{i,j}}{\sum_{i,j}{F_{i,j}}}\tag{9.1}$

利用式（9.2），得到從節點 $i$ 開始擴散的邊緣概率。
$p(i)=p_{i,*}=\frac{\sum_{j}{F_{i,j}}}{\sum_{i,j}{F_{i,j}}}\tag{9.2}$

利用式（9.3），得到擴散到節點 $j$ 的邊緣概率。
$p(j)=p_{*,j}=\frac{\sum_{i}{F_{i,j}}}{\sum_{i,j}{F_{i,j}}}\tag{9.3}$

作者使得不相關和負相關的 $PMI$ 值都爲0，得到矩陣P：
$P_{i,j}=max\{pmi_{i,j}=log(\frac{p_{i,j}}{p_{i,*}p_{*,j}}),0\}\tag{9.4}$

將矩陣 $P$ 作爲鄰接矩陣，帶入1stChebNet模型：
$Conv^{(i)}_P(X)=Z^{(i)}=\sigma(D^{-\frac{1}{2}}PD^{-\frac{1}{2}}Z^{(i-1)}W^{(i)})\tag{10}$

其中， $Conv_A,Conv_P$ 是共享權重的，即訓練參數 $W^{(i)}$ 是一樣的。

4.整合局部和全局一致性

由於缺少訓練數據（半監督訓練，只有少量有標籤的節點），無法利用通常的類似直接拼接兩個輸出的方法對結果進行集成，否則得到的性能將會很差。所以作者提出了利用無監督的方法對這兩個輸出進行整合。
對於局部一致性卷積的結果 $Conv^{(i)}_{A}(X)$ ，使用傳統有標籤的交叉熵損失：
$L_{0}(Conv_A)=-\frac{1}{y_L}\sum_{l\in y_L}{\sum_{i=1}^{c}{Y_{l,i}ln{\hat Z}_{l,i}^A}}\tag{11}$

其中， $y_L$ 表示有標籤節點集合， $c$ 爲分類種數， $Y_{l,i}$ 爲節點 $l$ 的標籤， $\hat Z_{l,i}^A$ 表示節點的預測結果。
對於全局一致性卷積的結果 $Conv^{(i)}_{P}(X)$ ：雖然 $A,P$ 矩陣不一樣，但是最後的預測結果需要一致，所以可以採用均方差作爲損失，將局部和全局一致性進行整合：
$L_{reg}(Conv_A,Conv_P)=\frac{1}{n}\sum_{i=1}^{n}{||\hat Z_{l,i}^A-\hat Z_{l,i}^P||^2}\tag{12}$

其中， $\hat Z_{l,i}^A$ 表示利用矩陣 $A$ 的節點預測結果， $\hat Z_{l,i}^P$ 表示利用矩陣 $P$ 的節點預測結果。該損失對所有的節點進行均方差計算，而不是隻對有標籤的節點。

最後損失函數爲：
$L=L_{0}(Conv_A)+\lambda(t)L_{reg}(Conv_A,Conv_P)$

其中， $\lambda(t)$ 爲動態權值， $t$ 表示時間。
在訓練剛開始時， $t$ 比較小，損失函數由 $L_{0}(Conv_A)$ 項主導，通過 $L_{0}(Conv_A)$ 損失獲得後驗分佈；隨着時間的推移， $\lambda(t)$ 增大， $L_{reg}(Conv_A,Conv_P)$ 開始對模型參數產生影響，將同時考慮兩者。這樣的動態權值可以加速模型的收斂，同時使得參數可以收斂到正確的解上。

DualGCN框架如下：

DualGCN僞代碼如下：

《Dual Graph Convolutional Networks for Graph-Based Semi-Supervised Classification》論文理解

1.DualGCN模型框架

2.局部一致性卷積

3.全局一致性卷積

4.整合局部和全局一致性

工作中用到的腳本合集

微服務實踐Aspire項目發佈到遠程k8s集羣

通過f-string編寫簡潔高效的Python格式化輸出代碼

[轉帖]20個常用的Linux工具命令

[轉帖]PostgreSQL從小白到高手教程 - 第46講：poc-tpch測試

24-5-18 X

sklearn.preprocessing.OneHotEncoder()函數介紹

《Multi-Label Image Recognition with Graph Convolutional Networks》論文理解

1.《Spectral Networks and Deep Locally Connected Networks on Graphs》論文理解

《Adaptive Graph Convolutional Neural Networks》論文理解

Spectral-based ConvGNNs

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結