基於用戶協同過濾與基於項目協同過濾的適用場景

一、在適合用途上的比較
基於用戶的協同過濾算法主要有兩步:

1)找到和目標用戶興趣相似的用戶集合

2)找到這個集合中的用戶喜歡的,且目標用戶沒有聽說過的物品推薦給目標用戶。

基於物品的協同過濾算法主要有兩步:

1)計算物品之間的相似度。

2)根據物品的相似度和用戶的歷史行爲給用戶生成推薦列表。

Item CF是利用物品間的相似性來推薦的,所以假如用戶的數量遠遠超過物品的數量,那麼可以考慮使用Item CF,比如購物網站,因其物品的數據相對穩定,因此計算物品的相似度時不但計算量較小,而且不必頻繁更新;User CF更適合做新聞、博客或者微內容的推薦系統,因爲其內容更新頻率非常高,特別是在社交網絡中,User CF是一個更好的選擇,可以增加用戶對推薦解釋的信服程度。

而在一個非社交網絡的網站中,比如給某個用戶推薦一本書,系統給出的解釋是某某和你有相似興趣的人也看了這本書,這很難讓用戶信服,因爲用戶可能根本不認識那個人;但假如給出的理由是因爲這本書和你以前看的某本書相似,這樣解釋相對合理,用戶可能就會採納你的推薦。

UserCF是推薦用戶所在興趣小組中的熱點,更注重社會化,而ItemCF則是根據用戶歷史行爲推薦相似物品,更注重個性化。所以UserCF一般用在新聞類網站中,如Digg,而ItemCF則用在其他非新聞類網站中,如Amazon,hulu等等。

因爲在新聞類網站中,用戶的興趣愛好往往比較粗粒度,很少會有用戶說只看某個話題的新聞,往往某個話題也不是天天會有新聞的。個性化新聞推薦更強調新聞熱點,熱門程度和時效性是個性化新聞推薦的重點,個性化是補充,所以UserCF給用戶推薦和他有相同興趣愛好的人關注的新聞,這樣在保證了熱點和時效性的同時,兼顧了個性化。另外一個原因是從技術上考慮的,作爲一種物品,新聞的更新非常快,而且實時會有新的新聞出現,而如果使用ItemCF的話,需要維護一張物品之間相似度的表,實際工業界這表一般是一天一更新的,這在新聞領域是萬萬不能接受的。

但是,在圖書,電子商務和電影網站等方面,ItemCF則能更好的發揮作用。因爲在這些網站中,用戶的興趣愛好一般是比較固定的,而且相比於新聞網站更細膩。在這些網站中,個性化推薦一般是給用戶推薦他自己領域的相關物品。另外,這些網站的物品數量更新速度不快,一天一次更新可以接受。而且在這些網站中,用戶數量往往遠遠大於物品數量,從存儲的角度來講,UserCF需要消耗更大的空間複雜度,另外,ItemCF可以方便的提供推薦理由,增加用戶對推薦系統的信任度,所以更適合這些網站。

二、從推薦的多樣性上比較
單個用戶的多樣性:Item CF的多樣性顯然不如User CF的好,因爲Item CF的推薦就是和以前看的東西最相似的。系統的多樣性(也被稱爲覆蓋率,指一個推薦系統能否給用戶提供多種選擇):在這種指標下,Item CF的多樣性要遠遠好於User CF,因爲User CF會更傾向於推薦熱門的物品。從另外一個角度看,也就是說,Item CF的推薦有很好的新穎性,容易發現並推薦長尾裏的物品。所以大多數情況,Item CF的精度稍微小於User CF,但是如果考慮多樣性,Item CF卻比User CF好很多。

由於User CF經常推薦熱門的,所以它在推薦長尾裏項目方面的能力不足;而Item CF只推薦A領域給用戶,這樣他有限的推薦列表中就可能包含了一定數量的不熱門的長尾物品,同時Item CF的推薦對這個用戶而言,顯然多樣性不足。但是對整個系統而言,因爲不同的用戶的主要興趣點不同,所以系統的覆蓋率會比較好。

三、用戶特點對推薦算法影響的比較
對於User CF,推薦的原則是假設用戶會喜歡那些和他有相同喜好的用戶喜歡的東西,但是假如用戶暫時找不到興趣相投的鄰居,那麼基於用戶的CF推薦效果就打了大大折扣了,因此用戶是否適應User CF算法跟他有多少鄰居是成正比關係的。基於項目協同過濾算法也是有一定前提的,即用戶喜歡和他以前購買過的相同類型的物品,那麼我們可以計算一個用戶喜歡的物品的自相似度。一個用戶喜歡物品的自相似度大,就說明他喜歡的東西都是比較相似的,即這個用戶比較符合Item CF方法的基本假設,那麼他對Item CF的適應度自然比較好;反之,如果自相似度小,就說明這個用戶的喜好習慣並不滿足Item CF方法的基本假設,那麼用Item CF方法所做出的推薦對於這種用戶來說,其推薦效果可能不是很好。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章