推薦引擎:如何解決新用戶“冷啓動”

作者:Paolo Massa, Paolo Avesani
期刊:Lecture Notes in Computer Science, 2004, Vol. 3290, pp. 492‐508.
下載:http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.59.5213&rep=rep1&type=pdf

本文動機
推薦系統旨在幫助人們解決信息過載的問題,然而基於用戶相似度的協同過濾推薦系統不僅存在冷啓動的問題,而且需要根據用戶的消費(瀏覽)行爲去度量每一對用戶的相似性,以期尋找能更好地提高預測準確度的相似鄰居。然而在實際應用中由於存在太多的用戶以及太多的產品,這種方案需要極大的計算量——不僅需要查詢用戶的消費行爲,還要據此計算用戶之間的相似程度。再者,由於產品的種類繁多,用戶(尤其是新用戶)之間選擇產品的交集就相對較少,基於此進行推薦的話,往往會把目標鎖定在更小的區域,也更容易受到“超大度用戶”的干擾。
簡單來說呢,本文針對傳統協同過濾的“冷啓動問題”、“計算量大”和“能預測評分的覆蓋面小”這三個問題,提出了基於用戶社交信任關係模型,假設並驗證用戶會選擇或者喜歡他們信任的人所選擇的產品。


模型建立及對比
在epinion.org系統中,用戶不僅可以在線購買多種商品,還允許對其他用戶進行打分。於是系統中就有了可用的信任關係網絡。


對用戶打分和對商品打分一樣,分值從1分到5分不等,分別表示從不信任到信任的程度(在本文中,評分都被作者映射到區間[0,1]上)。右圖中實線表示信任關係,邊的權重表示信任程度,虛線則表示沒有直接的信任關係,但這個關係可以通過信任傳遞來確定。然而在本文的模型中,並沒有用到信任權重,即每一條信任關係的權重都爲1。
有了這麼一個信任關係,要怎麼應用呢?與傳統的協同過濾方法有什麼不同呢?請看下圖。有背景色的爲“方法模塊”,無背景色的爲“輸入/輸出”的數據。

從上圖中就可以比較清晰的看到,“基於信任關係”的模型與“基於用戶相似度的協同過濾”模型的區別僅在於“尋找推薦參考用戶”的方法不同。
那麼本文中,採用pearson相關係數來度量用戶之間的相似性,主要是基於用戶共同選擇的產品及其評分相似性的衡量來確定用戶的相關程度。這個係數在之前的報告中已做說明,在此不再贅述。


用戶之間的信任關係,在本文看來信任的強度都爲1,並假設用戶之間的信任是可傳遞的。這個傳遞性就可分爲兩種方法:基於全局的傳遞和基於局部的傳遞。基於全局的傳遞可以採用PageRank的方法衡量,而基於局部的傳遞則只需要考慮k階鄰居的信任傳遞。本文僅拿局部的傳遞方案與傳統的協同過濾方案進行對比。傳遞的規則如下:
給定源節點u,該節點對其他節點v的信任程度與他們之間的最短路徑直接相關。確切來講,如果我們僅考慮d階最短路徑之內的節點(也就是說,對於源點u來說,與其最短距離超過d步的節點將不予考慮),那麼與源點u之間最短路徑爲n的用戶被u信任的程度爲:

(d-n+1)/d

如此一來,就可以在較小的範圍內挑選目標用戶最信任的參照用戶了。有了參照用戶,就可以同協同過濾方案一起使用“預測評分方法”對未評分商品進行評分預測。

實驗結果
本文采用了四種評價指標,分別對兩種模型的表現進行對比,結果對比如表格所示。


最上面的一行{ALL 2 3 4},其對應的元素表示其對應的那一列數據,作爲實驗結果,分別對應了:對所有的用戶進行評分預測、對評過兩個產品的用戶進行評分預測、對評過三個產品的用戶進行評分預測、對評過四個產品的用戶進行評分預測。選取測試集的方法爲Leave-one-out的方案,即每次抽取一個評分作爲待預測項,並基於剩餘評分信息對待預測項進行評分。對於每種預測方案,每個目標用戶集合中的評分只能被選擇一次。
第二個塊中的“# Users”表示用戶的數量,可見“新用戶”的數目還是比較多的,而且他們的平均朋友數目也比較少(如σ friends所示)。所以爲了照顧這些新用戶,作者最多考慮了4步以內的朋友,從而增加可用信息。
接下來就是兩個模型的對比了。解釋一下兩個Coverage:假設考慮1個用戶u有100個評分,還有100個用戶但每個用戶只有1個評分,又假如某推薦系統能預測出u的所有100個評分,其他100個用戶的卻無法預測,那麼這個推薦系統的Coverage on Rating就是100/200=50%;Coverage on Users則是1/101。當然覆蓋度越高,說明推薦系統的功能越強大。整體來看,基於用戶信任關係的方法比傳統的協同過濾方法更優,尤其是對新用戶的預測上,傳統的協同過濾方法幾乎是無能爲力,但基於信任關係的模型卻有一個較大的覆蓋面,而且當考慮更遠的信任關係時,能夠預測的範圍更大。
不僅如此,從預測評分的精度來講,基於信任關係的模型預測出的評分與真實評分的誤差更小。注:MAUE是類比於MAE的方法定義的,意爲Mean Absolute User Error。

總結
本方法對於解決“新用戶冷啓動”問題有非常顯著的幫助,而且從計算的複雜度方面來講,基於信任關係的方法僅需要考慮用戶的信任關係網,而不需要對比用戶對商品的評分情況即可找出“參照用戶”從而進行更有效的預測。然而,國內的電商鮮有這樣的服務(淘寶有淘江湖),方法雖好,但巧婦難爲無米之炊,從哪裏取米呢?
微博有龐大的用戶羣體,如果能引導用戶使用或者關聯微博賬號登陸,若發佈“購買信息”,則可能引導朋友鏈過去看看;若不發佈“購買信息”,我們至少也能得到用戶的購買記錄。在電商聯盟中,這個信息量就更爲客觀了。


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章