論文筆記:Billion-scale Commodity Embedding for E-commerce Recommendation in Alibaba

一、基本信息

論文題目:《Billion-scale Commodity Embedding for E-commerce Recommendation in Alibaba》

發表時間:KDD 2018

論文作者及單位:

論文地址:https://arxiv.org/abs/1803.02349

 

二、摘要

推薦系統(RS)已經成爲中國最大的在線C2C平臺淘寶業務增長的最重要技術。淘寶面臨三大挑戰:可擴展性、稀疏性和冷啓動。在本文中,我們提出瞭解決這三個挑戰的技術解決方案。這些方法基於一個著名的圖形嵌入框架。我們首先從用戶的行爲歷史構建一個項目圖,並學習圖中所有項目的嵌入。項目嵌入用於計算所有項目之間的成對相似性,然後在推薦過程中使用這些相似性。爲了減少稀疏性和冷啓動問題,將側面信息嵌入到圖形嵌入框架中。我們提出兩種聚合方法來整合項目的嵌入和對應的側信息。離線實驗的實驗結果表明,加入側信息的方法優於不加入側信息的方法。此外,我們還描述了部署嵌入方法的平臺和處理淘寶億級數據的工作流程。通過A/B測試,我們發現在線點擊率(ctrs)比以前廣泛應用於淘寶的基於協同過濾的方法有所提高,進一步證明了我們所提出的方法在淘寶直播環境中的有效性和可行性。

 

三、主要內容與工作

1 INTRODUCTION

互聯網技術一直在不斷重塑商業格局,如今在線商業無處不在。阿里巴巴是中國最大的在線業務提供商,它使全世界的人或公司都有可能在線開展業務。擁有10億用戶的阿里巴巴,2017年的商品總量(GMV)爲3767億元,2017年的收入爲1580億元。在中國最大的網絡購物節“雙十一”中,2017年的交易總額約爲1680億元。在阿里巴巴的各種在線平臺中,最大的在線消費者對消費者(c2c)平臺淘寶1佔據了阿里巴巴電子商務總流量的75%。
淘寶擁有10億用戶和20億物品,即商品,最關鍵的問題是如何幫助用戶快速找到需要的和有趣的物品。爲了實現這一目標,推薦成爲淘寶網的關鍵技術,旨在根據用戶的喜好爲用戶提供有趣的商品。例如,移動淘寶應用程序的主頁(見圖1)是根據用戶過去的行爲和推薦技術生成的,佔推薦流量的40%。此外,建議在淘寶的收入和流量中佔據了絕大多數。總之,推薦已經成爲GMV和淘寶、阿里巴巴收入的重要引擎。儘管學術界和行業中各種推薦方法都取得了成功,如協同過濾(CF)[9、11、16]、基於內容的推薦方法[2]和基於深度學習的推薦方法[5、6、22],但這些推薦方法所面臨的問題在淘寶由於用戶和物品規模達數十億而變得更加嚴重。

淘寶面臨三大技術挑戰:
•可擴展性:儘管許多現有的推薦方法在小規模數據集(即數百萬用戶和項目)上運行良好,但在淘寶更大規模的數據集(即10億用戶和20億項目)上失敗。
•稀疏性:由於用戶往往只與少量項目交互,因此很難訓練出準確的推薦模型,尤其是對於交互次數很少的用戶或項目。它通常被稱爲“稀疏性”問題。
•冷啓動:在淘寶,每小時有數百萬個新項目被連續上傳。這些項目沒有用戶行爲。處理這些項目或預測用戶對這些項目的偏好是很困難的,這就是所謂的“冷啓動”問題。

爲了解決淘寶面臨的這些挑戰,我們在淘寶的技術平臺上設計了一個兩階段的推薦框架。第一階段是匹配,第二階段是排名。在匹配階段,我們爲用戶交互過的每個項目生成一組相似的候選項,然後在排序階段,我們訓練一個深度神經網絡模型,根據每個用戶的偏好對候選項進行排序。由於上述挑戰,在這兩個階段,我們都必須面對不同的獨特問題。此外,每個階段的目標是不同的,導致了不同的技術解決方案。
本文主要研究如何解決匹配階段的挑戰,其中的核心任務是根據用戶的行爲計算所有項目之間的成對相似性。在獲得項目的成對相似性之後,我們可以生成一組候選項目,以便在排名階段進一步個性化。爲了實現這一點,我們建議從用戶的行爲歷史構建一個項目圖,然後應用最新的圖形嵌入方法[8,15,17]來學習每個項目的嵌入,稱爲基礎圖嵌入(bge)。這樣,我們就可以根據嵌入向量的點積計算出的相似度來生成候選項集。請注意,在以前的工作中,基於CF的方法用於計算這些相似性。然而,基於CF的方法只考慮用戶行爲歷史中項目的共存[9,11,16]。在我們的工作中,使用項目圖中的隨機行走,我們可以捕獲項目之間的高階相似性。因此,它優於基於CF的方法。然而,在很少甚至沒有交互的情況下,學習如何準確地嵌入項目,仍然是一個挑戰。爲了解決這一問題,我們建議使用邊信息來增強嵌入過程,稱爲邊信息圖嵌入(GES)。例如,屬於同一類別或品牌的項目在嵌入空間中應該更靠近。這樣,我們就可以在很少甚至沒有交互的情況下獲得項目的精確嵌入。然而,在淘寶,有上百種類型的側邊信息,如類別、品牌或價格等,很直觀的是,不同的側邊信息應該對學習物品的嵌入做出不同的貢獻。因此,我們進一步提出了一種邊信息嵌入學習時的加權機制,稱爲邊信息嵌入增強圖(eges)。
總之,匹配階段有三個重要部分:

(1)根據淘寶網多年的實踐經驗,設計了一種有效的啓發式方法,從淘寶網10億用戶的行爲歷史中構建項目圖。
(2)我們提出了三種嵌入方法,即bge、ges和eges,來學習在淘寶中嵌入20億個物品。我們進行了離線實驗,以證明與BGE和其他嵌入方法相比,GES和EGE的有效性。
(3)爲了部署淘寶億級用戶和物品的建議方法,我們在團隊構建的xtensorflow(xtf)平臺上構建了圖形嵌入系統。結果表明,該框架顯著提高了移動淘寶應用的推薦性能,即使在雙十一也能滿足培訓效率和服務即時響應的要求。

論文的其餘部分組織如下。在第2節中,我們詳細介紹了三種嵌入方法。離線和在線實驗結果見第3節。第四節介紹了淘寶系統的部署,第五節對相關工作進行了回顧。我們將在第6節結束我們的工作。

2 FRAMEWORK

在本節中,我們首先介紹了圖形嵌入的基本知識,然後詳細說明如何從用戶的行爲歷史中構建item圖。最後,我們研究了在淘寶中學習物品嵌入的方法。

2.1 Preliminaries

圖嵌入就是把原來D維的圖映射到d維空間中,d<<D。

本文嵌入的方法主要來源於DeepWalk

2.2 Construction of Item Graph from Users’ Behaviors

在本節中,我們將從用戶的行爲中詳細描述項目圖的構造。實際上,用戶在淘寶中的行爲往往是連續的,如圖2(a)所示。以前的基於CF的方法只考慮項目的共存,而忽略順序信息,這樣可以更準確地反映用戶的偏好。但是,不可能使用用戶的整個歷史記錄,因爲1)由於條目太多,計算和空間成本太高;2)用戶的興趣往往隨時間而轉移。因此,在實踐中,我們設置了一個時間窗口,只選擇用戶在窗口中的行爲。這稱爲基於會話的用戶行爲。根據經驗,時間窗口的持續時間爲一小時。
在我們獲得基於會話的用戶行爲之後,如果兩個項目連續發生,則它們通過一個有向邊緣連接,例如圖2(b)中的項目d和項目a是連接的,因爲用戶u1訪問了項目d和a,如圖2(a)所示。利用淘寶網中所有用戶的協作行爲,根據兩個連接項在所有用戶行爲中出現的總次數,爲每一個邊緣ei j分配一個權重。具體來說,在整個用戶行爲歷史中,邊緣的權重等於項目i向項目j過渡的頻率。這樣,構建的項目圖可以根據淘寶用戶的所有行爲來表示不同項目之間的相似性。
在實際應用中,在提取用戶行爲序列之前,需要對無效數據和異常行爲進行過濾,以消除噪聲。目前,我們的系統將以下行爲視爲噪聲:

1、如果單擊後的停留時間少於一秒鐘,則單擊可能是無意的,需要刪除。
2、淘寶有些“過度活躍”的用戶實際上是垃圾郵件用戶。根據我們在淘寶的長期觀察,如果一個用戶在不到三個月的時間內購買了1000件商品或者他/她的點擊總數超過3500次,那麼這個用戶很可能是一個垃圾郵件用戶。我們需要過濾掉這些用戶的行爲。
3、淘寶網的零售商不斷更新商品的細節。在極端情況下,一個商品在經過長時間的更新後,可能會成爲淘寶中同一個標識符的完全不同的商品。因此,我們刪除與標識符相關的項。

2.3 Base Graph Embedding

2.4 Graph Embedding with Side Information

通過應用2.3節中的嵌入方法,我們可以學習淘寶中所有項目的嵌入,以捕獲用戶行爲序列中的高階相似性,而這些相似性被以前基於CF的方法忽略了。然而,學習“冷啓動”項目(即那些沒有用戶交互的項目)的準確嵌入仍然是一個挑戰。
爲了解決冷啓動問題,我們建議使用冷啓動項目附帶的側信息來增強BGE。在電子商務的RS場景中,邊信息是指一個商品的類別、商店、價格等,在排名階段被廣泛用作關鍵特徵,但在匹配階段很少被應用。在圖形嵌入中加入側信息可以緩解冷啓動問題。例如,優衣庫(同一家店)的兩個連帽衫(同一類別)可能看起來很相似,喜歡尼康鏡頭的人也可能對佳能相機(類似類別和類似品牌)感興趣。這意味着具有相似邊信息的項應該更靠近嵌入空間。基於這一假設,我們提出瞭如圖3所示的GES方法。

首先構造不同的邊緣信息的嵌入矩陣W0,W1,......,Wn,然後,Hv爲聚合嵌入矩陣。

2.5 Enhanced Graph Embedding with Side Information

考慮到不同邊緣信息的影響力不同,給不同邊緣信息添加了權重

3 EXPERIMENTS

4 SYSTEM DEPLOYMENT AND OPERATION

5 RELATEDWORK

在本節中,我們簡要回顧了RS的相關工作,包括圖形嵌入、帶側信息的圖形嵌入和圖形嵌入。

5.1 Graph Embedding

圖嵌入算法是一種常用的網絡表示方法。它們已經應用於許多實際應用。在過去的幾年裏,人們在設計新的嵌入算法方面進行了大量的研究。這些方法可以分爲三大類:1)因式分解法,如直線法[1]嘗試對鄰接矩陣進行近似因式分解,同時保持一階和二階近似;2)深度學習法[3,20,21]提高模型在圖中捕捉非線性的能力;3)基於隨機遊走的方法[7,8,15]使用圖上的隨機遊動來獲得節點表示,這是非常有效的,因此可以用於非常大規模的網絡。本文的嵌入框架是基於隨機遊動的。

5.2 Graph Embedding with Side Information

上述圖嵌入方法僅採用網絡的拓撲結構,存在稀疏性和冷啓動問題。近年來,大量的工作試圖將邊信息結合起來,增強圖形嵌入方法。大多數作品都是基於這樣一個假設來構建任務的:具有相似邊信息的節點應該更靠近嵌入空間。爲了實現這一點,提出了一個聯合框架,用分類器函數對嵌入目標函數進行優化[10,19]。在[24]中,Xie等人進一步嵌入一個複雜的知識圖,其中節點處於一個層次結構中,如子類別等,此外,與節點相關的文本信息也被納入到圖形嵌入中[18、23、25、26]。此外,在[4]中,Chang等人提出了一種同時處理文本和圖像特徵的異構圖形嵌入深度學習框架。本文主要處理與淘寶物品相關的離散側信息,如類別、品牌、價格等,並設計了一個隱藏層,將不同類型的側信息聚集在嵌入框架中。

5.3 Graph Embedding for RS

RS一直是圖形嵌入中最流行的落地應用之一。有了這些表示,可以使用各種預測模型來推薦。在[27,29]中,用戶和項目的嵌入分別在異構信息網絡中的元路徑和元圖的監督下學習。餘等。[27]提出了一個線性模型來聚集嵌入物以供推薦,而趙等[29]建議將因子分解機應用到嵌入中,以供推薦。在[28]中,張等人提出了一個聯合嵌入框架來學習圖形、文本和圖像的嵌入,並以此作爲推薦。在[30]中,周等提出了一種基於圖像嵌入的非對稱相似性節點推薦方法。本文將我們的圖形嵌入方法集成到一個兩階段的推薦平臺中。因此,嵌入件的性能直接影響到最終的推薦結果。

 

四、總結

淘寶數十億規模的數據(10億用戶和20億項)在可擴展性、稀疏性和冷啓動方面給其推薦帶來巨大壓力。在本文中,我們提出了基於圖嵌入的方法來解決這些挑戰。爲了解決稀疏性和冷啓動問題,我們提出在圖嵌入中加入邊信息。離線實驗證明了輔助信息在提高推薦準確性方面的有效性。據報道,在線點擊率也證明了我們提出的方法在淘寶網業務場景中的有效性和可行性。通過對真實案例的分析,強調了我們提出的圖嵌入方法在使用用戶行爲歷史聚類相關項目和使用輔助信息處理冷啓動項目中的優勢。最後,爲了解決我們在淘寶提出的解決方案的可擴展性和部署問題,我們詳細闡述了我們的圖形嵌入方法的培訓平臺和淘寶推薦平臺的總體工作流程。對於未來的工作,我們將追求兩個方向。第一種是在我們的圖嵌入方法中利用注意機制,它可以提供更大的靈活性來學習不同邊信息的權重。第二個方向是將文本信息整合到我們的方法中,利用淘寶上的大量評論。

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章