1、背景

異質圖在實際生活中比同質圖要更爲常見一些，或者可以認爲同質圖中節點間存在多種類型的邊（關係），同時每一條邊所具有的不同屬性也會導致節點間的遠近親疏。廣泛列舉的citation network，在我看來其實還算是比較好處理一點的異質圖，雖然說文章間的共同作者、相互引用可以作爲不同類型的邊，但終究說，一個作者的研究領域是相關的，能夠相互引用的文章大多也是同類型的，能夠發表在同一個會議上的文章也很大概率是同領域的，在目前抽樣形成citation network中，我認爲是稍微偏向同質的，而真正的異質網絡應該像電商那樣的網絡，那時候什麼點擊、購買、收藏、瀏覽的關係應有盡有，會更難處理節點在不同邊支配下的恐懼（^-^）。

言歸正傳，作者認爲目前異質圖處理的難點在於，一方面要處理圖的結構信息，如不同類型的點和邊，另一方面要關注每個節點所具有的屬性（例如文本或圖像），儘管在同構或異構圖嵌入、屬性圖嵌入以及圖神經網絡等方面已經有了大量的研究，但很少有研究能同時考慮異構的節點、邊和異構的內容。因此，作者提出了HetGNN模型來解決此事。

如下圖所示，作者認爲當前工作對於異質圖還沒有解決好的三個問題：

異質圖中的大多數節點並不會連接所有類型的其他節點。如academic graph中user節點不會直接連到venue節點上。另外說節點能夠連接的鄰居數也不一樣。大部分GNN直接聚合鄰居節點信息，而遠處傳過來的節點信息會隨着距離而減弱。hub節點會被弱關聯的鄰居節點擾亂信息，冷啓動的節點會因爲鄰居不足而導致不能充分表示。那麼問題1就是：如何對異質圖上的每個節點採樣到強相關的鄰居節點呢？
每個節點都帶有非結構化的屬性特徵，如text、image，常用的從concatenate或者linear transformation不能建模節點屬性間的deep interaction。那麼問題2就是：如何設計異質圖上節點屬性的encoder來處理不同節點內容異質性問題。
不同類型的鄰居節點對生成節點embedding的貢獻也不一樣。例如在academic graph，author和paper節點對author的embedding的影響會強如venue，而大部分gnn集中在同質圖的處理上，也沒有考慮這種不同類型節點的影響。

2、問題定義

3、HetGNN模型

模型思路還是很清晰的，採樣鄰居節點——鄰居節點類型分類——每個節點feature encoding——同類型集合embedding aggregation——不同類型鄰居集合aggregation——分類。整個模型的流程圖如下：

作者的研究思路可以歸納如下：

設計了一個基於重啓策略的隨機遊走方法，來爲圖中的每一個節點採樣固定數量的強相關的異構鄰居，隨後依照節點的類型對採樣的鄰居節點進行分組。
先使用BiLSTM來編碼異構內容的“深度”特徵交互，得到每一個節點的內容的嵌入。
再使用另一個BiLSTM來聚集不同的鄰居組（類型）的內容嵌入，得到這個類型的特徵表示。隨後通過注意力機制來衡量不同異構節點類型的影響，將它們組合起來，獲得最終的節點嵌入。
最後，利用一個關於圖的上下文的損失函數和小批量梯度下降的方法來訓練模型。