論文淺嘗 | AAAI2020 - 多分量圖卷積協同過濾方法

論文筆記整理:郝凱龍,南京大學碩士。


        來源:AAAI2020

鏈接:https://arxiv.org/pdf/1911.10699.pdf

動機

推薦系統實際上是在做用戶-商品二部圖上的鏈路預測,僅僅用用戶-商品之間的單一購買關係無法精確的進行描述爲什麼購買行爲發生。現有的方法沒有探索各種購買動機之間的差異進而導致無法捕捉到細粒度的用戶偏好。因此,我們提出了一種新穎的多分量圖卷積協同過濾方法 Multi-Component graph convolutional Collaborative Filtering (MCCF),以區分觀察到的顯式用戶-商品交互下潛在的多種購買動機。在三個真實數據集和一個合成數據集上進行試驗,結果不僅顯示了 MCCF 的顯着性能提升,而且有效地證明了多個組件的必要性。

亮點

MCCF的亮點主要包括:

(1)首次探索了用戶-商品二部圖下,用戶潛在的多種購買動機。可以更好的描述用戶細粒度的偏好;

(2)首次一種新穎的多分量圖卷積協同過濾 Multi-Component graph convolutional Collaborative Filtering (MCCF) 方法,以區分觀察到的顯式用戶-商品交互下潛在的多種購買動機;

概念及模型

MCCF 內部有兩個主要模塊:分解器和組合器。前者首先將用戶-商品交互分解爲多種可能導致購買關係的潛在組件;後者自動重新組合這些潛在組件,以獲得統一的用戶/商品表示以進行預測。此外,稀疏正則化和鄰居權重採樣用來緩解過擬合問題並加速優化

 

MCCF具體由三部分構成:

  • Decomposer:分解潛在偏好並用 node-level attention 來學習用戶/商品多個成分的表示。

  • Combiner:多個成分利用 component-level attention 進行加權融合。

  • MLP+Predict:評分預測。

 

模型整體框架如下:

             

 

  • 多成分抽取

假定用戶和商品都有 M 個 components,爲了將這 M 種成分進行剝離,文章首先利用 M 組投影矩陣對它們進行投影。實際上是將節點通過不同的投影矩陣映射到不同的空間,每個空間的表示代表一個 component。具體如下:

             

             

  • 節點級別注意力

圖神經網絡通常收集鄰居信息並利用神經網絡更新節點表示。通過對鄰居的加權混合來更新節點表示。文章先考慮聚合 item 的信息更新節點表示。給定一個用戶和商品的第m個 component,文章可以利用節點級別注意力計算它們之間的一個注意力權重。基於所學習到的權重對鄰居進行加權聚合,得到用戶在第 m 個 component 下的表示:

                           

 

             

  • 評測和優化

評分部分採用常規的拼接+MLP:將用戶和商品的表示拼接後經過多次神經網絡映射到一個標量評分。同時,作者爲了增強泛化能力,對 component 進行了L0 正則。作者引了一篇文章的稀疏正則:它把全連接換成了論文源碼裏 L0 約束的稀疏全連接。爲了防止過擬合,作者還提出了一種採樣策略:根據評分的高低來對鄰居進行加權採樣,這裏的採樣也可以使不同節點在一個 batch 裏的鄰居數相同,加速 GPU 運算。如下:

             

             

 

理論分析

實驗

作者採用了3個公開數據集進行實驗,分別是:MovieLen-100K、Amazon、Yelp。首先是有效性實驗,模型的評價指標爲:MAE 和 RMSE。

             

本文所提出的 MCCF 優於 GCMC。但是需要注意的是,在 Yelp 數據集上 MCCF 和 MCCF-cmp 的效果一樣。也就說,在 Yelp 上對多個 component 進行平均和加權所取得效果一致。

 

文章利用合成數據集上進行評測。文章首先生成了 3 個用戶-商品交互圖,每個圖都代表一種潛在意圖。然後,將 3 張圖進行合併,生成了所謂的合成數據集。

             

實驗表明隨着 components 的個數增加,模型效果先上升後下降並在 3 個 components 時達到最優。這裏驗證了本文所提出的 MCCF 模型確實可以捕獲到真實個數的 component。

 

文章在 3 個真實數據集上驗證了 components 個數對模型表現的影響。在不同數據集上最佳 components 的個數有所差異。如下:

 

             

 

文章驗證了節點 embedding 維度大小對模型的影響。較大的維度可以更精準的表述節點,但是過大的維度可能會帶來冗餘。

 

             

 

總結

本文對推薦系統中用戶-商品二部圖的建立原因展開分析:用戶購買商品可能是基於多種不同的購買意圖,比如性價比或者外觀,這也是用戶的細粒度偏好。因此,文章提出了一種多分量圖卷積協同過濾 Multi-Component graph convolutional Collaborative Filtering(MCCF)方法,以探索在用戶-商品購買交互下潛在的多種購買動機。最後文章利用 node-level 和 component-level 的注意力來更好的學習節點表示

 


 

OpenKG

開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。

點擊閱讀原文,進入 OpenKG 博客。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章