Social Recommendation with Strong and Weak Ties 學習筆記


困惑1:對joint物品的排序順序,爲什麼在最前面?

摘要

隨着在線社交網絡的爆炸式增長,人們已經廣泛的意識到社交信息對推薦系統是非常有用的。社交推薦方法能夠很好的應對冷啓動問題,因此可以大幅度提升預測準確性。憑藉直覺,我們還可以得知,在社交關係的影響下,用戶很容易和他們朋友消費過的東西建立聯繫。儘管已經有很多人研究社交推薦,但是很少有人把注意力放在強聯繫和弱聯繫上,這兩個是社交科學中被充分證明的兩個概念。在這篇文章中,我們判別社交推薦中強弱聯繫的影響,我們使用鄰居重複數去估計聯繫的強度,並且結合BPR模型去判別聯繫的強弱。我們提出了一種基於EM模型的判別社交網絡中的強弱聯繫算法根據最優推薦準確率去學習用戶和物品的潛在特徵向量。我們在真實數據集上進行實驗,並且發現我們提出的方法比現有模型在準確性上有了顯著的提升。

介紹

首先介紹了一些常用的社交推薦方法,比如顯式反饋中使用CF協同過濾算法,在隱式反饋中pariwise排序算法效果更好。這種算法主要學習用戶喜好中物品的排序。BPR(Bayesian Personalized Ranking)框架結構是一種非常基礎的pairwise排序方法。一言以蔽之,算法的核心思想就是根據用戶比起沒有觀察結果的物品更喜歡有觀察結果的物品這個基本假設然後去學習一個個性化排序。這裏,一個被觀察的物品代表着用戶消費了這個物品,所以我們在文中交替使用這兩個詞,在論文1中作者證明了很多評分方法都可以融入BPR模型去學習排序方法,包括矩陣分解。
推薦系統中一個經常需要面對的問題就是數據稀疏,因爲物品很多,但是用戶通常只會消費很少的一部分。一個更困難的問題就是當新用戶加入系統時,因爲沒有歷史信息所以要面臨冷啓動問題。其中zhao等人剔除出了Social BPR(SBPR)模型,去假設在所有沒有觀察數據的物品中,用戶更喜歡和他們有社交聯繫的人消費過的物品。Q&A場景中社交聯繫的強弱,但是據我們所知,還沒有人在推薦系統中研究社交聯繫的強弱,但是社交聯繫的強弱會嚴重影響推薦質量。在 Granovetter 非常有影響力的一篇文章2中,他介紹了不同的社交聯繫,強聯繫、弱聯繫、缺失聯繫,並且得出弱聯繫是新信息在社交網絡傳播的主要原因的結論。在接下來的訪查[^22]中他又發現很多人找到工作的信息其實來源於他的弱聯繫而不是強聯繫。
這些現象讓我們想去探究在社交推薦中區分強弱聯繫是不是能對推薦結果進行改善。但是我們面臨着兩個主要問題:1、怎麼在給定的社交網絡中去區別強弱聯繫。社交領域中有這麼一個雙值定義:強聯繫是僅僅由兩個人之間的交互關係決定,和剩餘網絡部分無關,比如Granovetter用聯繫的頻率去區分強弱聯繫,這是簡單又符合直覺的,但是這個需要用戶的活躍數據,但是因爲安全和因素保護的問題,這個數據很難在在線社交網絡中獲取。 2、假定我們分類正確,我們怎麼把這個關係融入現有的排序方法中去改善推薦準確性。
本文中我們直面這些困難,我們首先採用了一個網絡拓撲結構中固有的一個特徵Jaccard係數來計算連接強度。直覺的,Jaccard係數捕捉了用戶朋友圈中的重合度。我們的選擇被一個大型移動電話圖同意,我們認爲當聯繫大於一個判決門限時就是強聯繫,否則就是弱聯繫。
接下來我們拓展了BPR模型,並且提出了一個統一的學習框架結果,最終完成了兩個任務(1)根據最優推薦準確性分類強弱聯繫(2)利用強弱聯繫建立了一個排序模型。我們採用Expectation-Maximization algorithm(EM算法)去學習社交聯繫和其他參數模型包括用戶和物品的隱藏特徵向量。我們在是個真實數據集上的實驗證明了我們的方法的優越性。
總體來說,我們做了以下貢獻:

  • 我們意識到強弱聯繫在社交領域的作用,並且提出應該把這個重要概念融入社交推薦中。

  • 根據強弱聯繫我們在BPR模型中提出了一個更細粒度的分類方法。

  • 我們使用EM算法去學習最優判決門限和其餘參數在我們的擴展的BPR模型中。

  • 我們在實際數據集中驗證了我們的方法,在預測準確率和召回率上都優於其他模型。

在我們的認知中,這是第一篇在社交推薦中明顯區別了強弱聯繫並把他們融進去提升推薦結果的文章。
我們先來定義一下本文研究的問題,在一個推薦系統中,用戶集合UU,物品集合II,並且有一個用戶之間的社交網絡,是一個無向圖G=(u,e)G = (u,e),其中uUu \in U代表每個獨立的用戶,邊(u,v)e(u,v) \in e代表了用戶uu和用戶vv之間的連接,我們知道每個用戶uu的消費的物品的集合,我們的任務就是去生成一個個性化推薦列表(是所有物品的排序之和)。

2 相關工作

社交媒體中的社交聯繫
在社交科學中社交聯繫已經被廣泛研究了。上述研究中沒有人把社交聯繫引入推薦系統,換句話說,已存的社交推薦中,並沒有人考慮了不同的社交聯繫。
社交推薦
簡言之,社交推薦的目的就是應用信任和影響去解決冷啓動問題,新用戶因爲沒有反饋數據所以沒有辦法採用傳統CF模型進行推薦的原因。Jamali 等人發現在Epinions數據集中,大約50%的數據都是冷啓動用戶(評分物品少於5個)。但是大多數方法都是針對顯式反饋系統,但是收效甚微。
最近,Zhao等人擴展了BPR模型3,通過假定對於所有未觀察過的物品,相對於其它物品一個用戶會更喜歡和他有社交聯繫的人消費過的物品(在後文中我們稱之爲社交物品)。在他們的SBPR模型中,對於每一個用戶uu,對於每一個自己消費過的物品ii和社交物品jj之間的相對喜好是被消費商品jj的用戶uu的鏈接數量衰減的。也就是說,越多聯繫消費了jj商品,在用戶uu的眼裏,商品iijj之間的差別越小。他們同樣討論了替代情況,相反的假設是社交商品比起非社交商品能夠收到更多負面信息。他們的實驗證明這種替代的SBPR模型和前一種SBPR模型相比,效果並不是那麼好。我們和SBPR模型不同的是我們通過添加正交的社交意識進入BPR模型。特別的,我們意識到區分強弱聯繫的重要性,並且通過引入這種區分擴展了BPR模型。主要的不同點在於對於社交物品的排序上。在SBPR模型中,社交物品是通過消費的人的數量進行排序的,但是在我們的模型中,排序是給予聯繫種類的。我們的實驗結果表明我們的新模型比SBPR模型和vanilla BPR模型在預測準確率上更好。

3 強弱聯繫

強弱聯繫的理論第一次被Granovetter2提出,在人際交往中,強聯繫意味着親密的朋友之間會有更高頻率的交互行爲,但是弱聯繫就意味着泛泛之交。在網絡結構中,強聯繫通常會在一個密集的子圖中聚集(比如圖1之中的(u,v,w)(u,v,w)(x,y,z)(x,y,z)),弱聯繫通常是連接兩個不同部分的橋(比如圖1中的(u,x))。
在這裏插入圖片描述
首先,我們認爲節點uu如果不違背以下條件:用戶uu有兩個強聯繫vvww,但是vvww之間沒有邊連接,則滿足強三元閉包性質。進而,如果一個節點uu滿足這個性質並且有至少兩個強聯繫,那麼本地橋一定是個弱連接。【本地橋定義:如果刪除(u,v)(u,v)這條邊回導致u,vu,v之間的路徑距離一定大於等於3.】
因爲弱聯繫不屬於同一個社交圈是非常容易理解的,因爲他們有不同的信息源,因此信息交互回包含更多的信息。把這個觀點應用到社交推薦中,我們的觀點就是被弱聯繫朋友消費的物品對這個用戶會更有吸引力。比如,一個研究用很難從他親密的合作伙伴中發現新的有趣的論文,因爲他們通常專注於同樣的話題,並且會看差不多類型的論文。相反的他會從更少合作的夥伴中引用的論文中發現更有趣的東西。
爲了把強弱聯繫應用到社交推薦中,我們首先需要定義怎麼去計算聯繫的強度,然後去分類聯繫。這裏存在很多的可能性,首先就像第一部分提到的,社會學家使用動態評估法比如交互的頻率,但是由於我們缺乏必要的數據,這個方法沒辦法實施。
我們從社區發現中尋找到了可替代的方法。首先先採用社區發現算法去把網絡圖G=(u,e)G = (u,e)劃分成不同的子圖。然後對於每一個邊(u,v)e(u,v)\in e,如果uuvv屬於同一個子圖,這個連接就被定義爲強連接,否則就定義爲一個弱連接。但是還是存在一個關鍵性問題,儘管已經有了很多社區發現算法,但是並沒有一個公認的黃金準則。也就是說,如果這個劃分是一個不好的,社交系統很難判斷這是一個不好的輸入,也就是說推薦質量會依賴於一個外來的社區發現算法,並且這個算法推薦系統沒辦法控制,所以說這種方法是不受歡迎的。
考慮到上述所有事實,我們求助於節點相似矩陣,衡量兩個節點在網絡中鄰居的重疊數。Onnela等人的研究4用實驗證明了這個基本假設是正確的。他們發現(1)本地網絡結構在一定程度上決定了聯繫的強度。(2)兩個用戶的聯繫越強,他們共同的朋友越多。此外,和交互交互不同,節點相似性是網絡結構固有屬性,不需要其它數據去計算。此外,和基於社交發現的算法不同的是,我們仍然可以選擇對推薦系統最有用的聯繫分類方法。
更具體的說,我們採用了Jaccard係數,一種簡單的評估方法,有效的捕捉了用戶之間的重疊性。用strength(u,v)strength(u,v)代表每一個(u,v)e(u,v)\in e的鏈接強度,我們有
(1)strength(u,v)=NuNvNuNv(Jaccard)strength(u,v)= \frac{|N_u\cap N_v|}{|N_u\cup N_v|}(Jaccard) \tag 1
其中NuuN_u\subseteq u代表着用戶UU的聯繫集合,同理vv。如果Nu=Nv=ϕN_u=N_v=\phi,也就是說用戶uu和用戶vv都是孤立點,那麼定義strength(u,v)=0strength(u,v)=0.通過定義所有的聯繫強度都會落在[0,1]的區間內,這個定義有現實意義,隨意給定兩個用戶uuvv,他們的Jaccard係數和隨機選擇從u,vu,v的連接用戶中選擇一個用戶,既是uu的鄰居,又是vv的鄰居的概率。
門限
爲了區分強弱聯繫,我們採用了一個簡單的判決門限,對於一個給定的社交網絡G,θG[0,1),θGG,\theta_G \in [0,1),\theta_G代表了聯繫強度的判決門限。
(u,v)is{strong,if strength(u,v)>θGweak,if strength(u,v)θG(u,v) is \begin{cases}strong,&\text{if $strength(u,v)>\theta_G $}\\weak,&\text{if $strength(u,v)\leq \theta_G $}\end{cases}
定義WuW_u爲用戶uu所有弱聯繫的集合,Wu={vU:(u,v)estrength(u,v)θG}W_u = \{v\in U: (u,v) \in e \wedge strength(u,v)\leq \theta_G\}。相似的,SuS_u爲用戶uu所有強聯繫的集合,Su={vU:(u,v)estrength(u,v)>θG}S_u = \{v\in U: (u,v) \in e \wedge strength(u,v)>\theta_G\}。並且WuSu=ϕW_u\cap S_u = \phi,WuSu=NuW_u\cup S_u = N_u.
在我們的體系中,θG\theta_G的值並不固定,而是需要我們模型學習的一個參數,所以說,在GG的強弱聯繫的分類結果和模型其它的參數一起學習,會導致最優的推薦準確率。
最終,我們發現其它的節點相似矩陣也可以用來定義聯繫強度,比如Adamic-Adar以及Katz score。但是我們認爲節點相似矩陣的選擇並不是我們這篇文章的重點,並且和我們提出的學習框架是無關的。

4、TBPR模型:有強弱聯繫的BPR模型

在這個部分,我們提出了我們的TBPR模型(BPR with Strong and weak Ties)。這個模型在BPR的基礎上融入了強弱聯繫的區分,並且根據聯繫類型對社交物體進行排序。

4.1 物品分類

在定義完強弱聯繫之後,我們現在要去準備好TPBR模型中的一個關鍵要素:對於每一個用戶我們需要把物品根據強弱聯繫分成五個類別,這些類別我們將在TBPR模型中用到。這裏我們對沒有被觀測到的物品做了一個細粒度的劃分,特別是社交物品,通過融入從網絡圖GG中獲得的強弱聯繫信息,分類標準如下:
1.** 消費過的物品consumed items** 對於所有的用戶uUu\in U,用CuselfIC_u^{self} \subseteq I代表用戶uu自己消費的物品集合。
2. 混合聯繫消費過的物品joint-tie-consumed(JTC) items 對於任意物品iICuselfi \in I - C_u^{self}至少被uu的一個強聯繫用戶和一個弱聯繫用戶消費過了,用CujointC_u^{joint}表示。
3. 強聯繫消費過的物品strong-tie-consumed(STC) items 用戶沒消費過的物品只被強聯繫用戶消費過,用CustrongC_u^{strong}表示。
4. 弱聯繫消費過的物品weak-tie-consumed(WTC) items 用戶沒消費過的物品只被強聯繫用戶消費過,用CuweakC_u^{weak}表示。
5. 無消費關係的物品 non-consumed items沒有聯繫用戶消費過這個商品,用CunoneC_u^{none}表示。

很顯然,CuselfCujointCustrongCuweakCunone=IC_u^{self}\cup C_u^{joint}\cup C_u^{strong} \cup C_u^{weak} \cup C_u^{none} = I,並且兩兩不相交,並且JTC,STC,WTC是用戶uu的所有社交物品。

4.2 對物品排序

和原始的BPR模型相同,我們假定沒有特殊的物品評分方法。爲了展現結果和有效性,我們使用降維矩陣分解,這是一種協同過濾的最優算法。
假定系統中的每一個用戶和物品都可以用d維潛在因子向量表示,分別爲PuRdP_u \in \mathbb{R}^dQvRdQ_v \in \mathbb{R}^d.d代表潛在特徵的數量。用戶特徵向量和物品特徵向量的內積就評估了用戶對這個物品的喜好。r^ui=<Pu,Qi>\hat{r}_{ui} = <P_u,Q_i>.因爲這本文中我們處理的是二元反饋,所以對於所有的u,iu,i都存在r^ui[0,1]\hat{r}_{ui} \in [0,1].
在本文中,TBPR模型對這五個類型的物品根據用戶喜好進行一個總體排序。受到BPR及其變種模型的優良效果的啓發,我們同樣假定用戶相對於其它物品更喜歡消費過的物品。因此,消費物品的排序是最悠閒的,接下來就就是一個開放性的問題,用戶是更喜歡WTC還是STC。儘管在第一部分我們提到社交領域中弱連接意味着更多新穎信息的傳播,但是這個並不代表喜好。
爲了解決上述問題,我們做了通過從DBLP上抽取的共同作者引用數據做了一個實驗,DBLP和其它三分數據集(Epinions Douban Ciao)將會一起被使用去驗證不同的方法的表現效果。
網絡g=(U,e)g = (U,e)將按照以下步驟構建。首先,每個節點vUv\in U要滿足下述兩個條件:(1)在至少十篇論文中是共同作者,(2)至少有一篇2009年之後發表的文章。如果兩個作者u,vu,v。如果兩個作者u,vu,v在2009年之前合作過至少一片論文,這裏就會有一個無向邊(u,v)e(u,v)\in e最後留下13.6k的節點,107k條邊。
圖2(a)展現了通過公示(1)計算出來的連接強度的分佈。通過定義,兩個作者u,vu,v有一個強聯繫,如果他們的合作伙伴中肯定有很大一部分重疊性。
接下來,我們要分析引用數據,去探究用戶更喜歡弱連接用戶還是強連接用戶,我們對follow-up的引用場景更感興趣。比如對於任意(u,v)e(u,v) \in e,如果在2009年之前從在一篇論文只被vv引用,但沒有被uu引用,但是uu在2009年之後引用了這篇文章,我們就認爲uu用戶followvv用戶的引用,需要注意的是,這個定義刪除了所用uuvv的共同作者。圖2b根據聯繫強度畫出了follow-up的數量。我們可以看出這個分佈非常偏向弱連接,這個暗示我們,但從數值上看,研究者更傾向於引用弱連接引用的論文。
在這裏插入圖片描述
結合其它作者的研究有以下結論,弱連接因爲數量多所以整體很重要,強連接因爲質量高所以個體很重要。
這個現象在我們的模型中,我們可以說WTC集合中的物品比STC集合中的物品更有用,但是針對於單個物品STC集合中的比WTC中的更有用。因此增加WTC物品的曝光度可以發現用戶的潛在喜好,我們同樣探究瞭如果把STC五片排在WTC物品之前。綜上,我們嘗試了所有的排序策略,所以我們將展示TBPR的兩種推薦結果。

4.3 TBPR兩種變形形式

我們現在對兩種TBPR的變形形式進行定義,這兩個之間的差別就在於WTC和STC物品的喜好排序。
TBPR-W(更喜歡弱聯繫)
喜好排序:
Cuself>Cujoint>Custrong>Cuweak>CunoneC_u^{self} > C_u^{joint} > C_u^{strong} > C_u^{weak} > C_u^{none}
TBPR-S(更喜歡強聯繫)
喜好排序:
Cuself>Cujoint>Cuweak>Custrong>CunoneC_u^{self} > C_u^{joint} > C_u^{weak} > C_u^{strong}> C_u^{none}

5. 參數學習策略

在這個部分,我們將展現如何使用EM算法對我們TBPR模型中參數進行優化。我們將在TBPR-W模型上進行展示,因爲TBPR-S優化方法相同,所以我們刪去了。

5.1 優化目標

使用Θ\Theta表示所有的參數集合,集合中包括強度判決門限θG\theta_G潛在特徵向量PuQiP_u和Q_i,似然函數可以表示爲:
在這裏插入圖片描述
其中概率用sigmoid激活函數表示:δ(x)=11+exp(x)\delta(x) = \frac{1}{1+exp(-x)}
比如,比起JTC物品,更喜歡消費過的商品的概率
KaTeX parse error: Expected 'EOF', got '&' at position 63: …at{x}_{uj}) \\ &̲=\frac{1}{1+exp…
其它概率定義方法類似。
結合強度判決門限
給定一個判決門限θG\theta_G強弱聯繫的區分度可以用下面的公式計算g(θG)=(tˉsθG)(θGtˉw)g(\theta_G) = (\bar{t}_s - \theta_G)(\theta_G-\bar{t}_w)
其中tˉs\bar{t}_s是所有強聯繫的平均強度,同理tˉw\bar{t}_w是弱聯繫的平均強度。
判決門限θG\theta_G一定要使分離度g(θG)g(\theta_G)比較大,爲了把判決門限囊括進我們的目標函數,我們添加了相對於STC物品更喜歡WTC物品的概率參數1g(θG)\frac{1}{g(\theta_G)}進入目標函數。

6 實驗評估

這個部分,我們在四個數據集上評估了TBPR-W和TBPR-S的質量

6.1 實驗設置

數據集:DBLP、Ciao、Douban、Epinions
模型比較:TBPR-W、TBPR-S、BPR、SBPR、SBPR-N、Implicit MF (WRMF)、Random、MostPopular
評估指標:
recall@k、Precision@K、Area Under the Curve、Mean Average Precision、Mean Reciprocal Rank (MRR).Normalized Discounted Cumulative Gain (NDCG


  1. S. Rendle et al., BPR: Bayesian personalized ranking from implicit feedback. In UAI, 2009. ↩︎

  2. M. S. Granovetter. The strength of weak ties. American journal of sociology, pages 1360–1380, 1973. ↩︎ ↩︎

  3. T.Zhao,J.McAuley,andI.King.Leveraging social connections to improve personalized ranking for collaborative filtering. In CIKM, pages 261–270, 2014. ↩︎

  4. J.P.Onnelaetal.,Structureandtiestrengthsinmobilecommunication networks. Proceedings of the National Academy of Sciences, 104(18):7332–7336, 2007. ↩︎

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章