推薦系統和協同過濾面臨的主要問題


數據稀疏
協同過濾的精度主要取決於用戶數據的多少。如果一個系統有很多用戶的歷史數據,他就能更好的對用戶的喜歡做出預測。所以,目前推薦系統做的最好的都是那些有着很大量用戶數據的公司,比如Google, Yahoo, Netflix, Amazon等等。但是,即使擁有很多數據,數據還是不夠多,因爲推薦系統的歷史還不夠長,還沒有積累足夠的數據。在目前處理稀疏數據的算法中,軟性SVD是一種最好的方法。

新用戶問題
這個問題和數據稀疏問題有一些相似性,他是指如何對新用戶做出推薦。當一個新用戶進入一個網絡時,我們對他的興趣愛好還一無所知,這時如何做出推薦是一個很重要的問題。一般在這個時候,我們只是向用戶推薦那寫普遍反映比較好的物品,也就是說,推薦完全是基於物品的。

新用戶問題還有一個變種就是長尾(long tail)問題,在Amazon中,不是所有的用戶都對很多書給出了評分,很多用戶只給少數的書給出了評分,這些用戶就處在一個長尾中,如何處理那些不太表露自己興趣的用戶,也是推薦系統的一個主要問題。

隱性喜好發現
在現在的推薦系統中,用戶的喜歡是通過用戶對某些物品進行評分獲得的。這種獲得用戶興趣的方法是一種很直接的方法。但在實際的互聯網中,用戶有很多隱性的方法表露他們的喜歡。比如用戶的文字評論,我們可以通過自然語言處理從用戶的評論中獲得用戶的興趣;或者是用戶的瀏覽行爲,比如用戶長時間的瀏覽一個物品,或者用戶經常瀏覽一個物品,或者用戶
購買了一個物品,這些行爲都可以作爲模式識別系統中的特徵。

所以,發現用戶的隱性喜好,相對於模式識別的特徵提取,這方面的研究也很熱門。

用戶興趣的變化
我們知道,用戶的興趣不是永遠不變的,隨着年齡和閱歷的變化,用戶的行爲會發生變化。也就是說,協同過濾其實還應該加入一個時間因子。目前對於變化的用戶興趣的研究還處於起步階段,主要是因爲現有的系統歷史都不是很久,大多數用戶的興趣還是比較穩定的,但是隨着互聯網的發展,用戶興趣的變化對推薦系統的影響將會越來越明顯,所以這方面的研究也將越來越重要。

偏激的用戶和全新的物品
我們知道,這個世界上有一些用戶是很偏激的。他們和大多數人的觀點是相反的。對於這種用戶,現有的推薦系統做出的預測往往是很差的。如何處理偏激的用戶,是推薦系統中的一個重要問題。

和偏激用戶相對應的,是全新的物品。比如有一部新電影,他是顛覆性的,和以前的電影都不太相似。用戶對於這個電影的愛好和用戶以前的興趣是沒有太大關係的,因爲用戶從來沒見過這種電影,這個問題也是導致現有的推薦系統精度不高的主要原因。

馬太效應以及推薦系統對互聯網的影響
我們知道,被推薦系統所推薦的物品將會越來越熱門,這就導致了大量很好的物品可能會被推薦系統所淹沒。在互聯網中,物品實在是太多了,而推薦系統只能推薦有限的物品。解決這個問題的主要方法是增加推薦系統的多樣性,比如一個推薦系統發現一個用戶非常喜歡吃德芙巧克力,那麼他給這個用戶推薦10個產品,不需要都是德芙巧克力,也可以推薦別的一些巧克力,或者一些和巧克力相似的甜品。在推薦時,不僅要推薦用戶喜歡的東西,而且要通過推薦讓用戶喜歡一些東西,有的時候,用戶自己也不知道他喜歡什麼,通過推薦系統,他可能會發現一些新東西他比較喜歡。

推薦系統中的作弊
只要涉及到經濟利益,就有人作弊。搜索引擎作弊是一個被研究了很久的問題,因爲在搜索引擎中,自己的網站排名越高,就能獲得越多的經濟利益。在推薦系統中也是如此,比如在淘寶中,如果一個賣家的物品經常被推薦,他就可能獲得很多經濟利益。這樣,很多電子商務的推薦系統都遭受到了作弊的干擾,一些人通過一些技術手段,對自己賣的物品給出非常高的評分,這就是一種作弊行爲。

推薦系統中的作弊在電子商務網站中越來越嚴重,特別是在美國這種互聯網比較發達的國家,已經受到一些研究者的重視。作弊行爲相當於人爲的向系統中注入了噪聲。目前解決作弊的算法主要是基於信任度和信用的。現在很多電子商務網站都引入了信用系統,比如淘寶等等。如何設計信用系統和推薦系統更好的融合,是一個重要的研究問題。

原文見http://xlvector.net/blog/?p=145,這是很不錯的關於推薦算法的博客。

http://bbs.sciencenet.cn/home.php?mod=space&uid=3075&do=blog&id=459442學校互聯網實驗室的傑出代表。


http://www.resyschina.com/2010/03/five_problems_of_resys.html提出了相似的5個問題:

1. 缺少數據

對於推薦系統來說,可能最大的問題就是需要大量的數據才能產生推薦結果。這也是爲什麼那些表現最突出的推薦系統都是來自於有數據的大公司,比如Google,Amazon,Netflix,Last.fm。正如Strands公司在他的演講中提到的那樣,一個好的推薦系統首先要獲得內容數據,接着必須獲得和分析用戶數據(行爲事件),最後纔是算法的工作。內容和用戶數據越多,獲得好的推薦的比率就會越高。但是這也是一個“雞和蛋”的問題——推薦系統的目的就是帶來更多的用戶點擊和購買,而好的推薦系統需要大量的用戶,你才能爲推薦系統提供需要的數據。

2. 變化的數據

這個問題曾經被智能推薦系統公司 Clicktorch CEO Paul Edmunds在以前的文章評論中提到過,Paul 指出推薦系統常常充斥着老的內容,而很難推薦出新的東西。時尚發燒友社區StyleHop 的David Reinke 在他的一篇博客中舉了一個例子——“流行趨勢總是在變化,因此用戶的過去行爲並不是一個好的工具”。顯然純算法的方式是不太可能跟上流行的趨勢的。大多數非時尚認識,我就屬於這一類,只信賴那些可信的對時尚很謹慎的朋友和家人的推薦。

David Reinke 要說明的是往往產品中有很多時尚因素,比如肥瘦、價格、顏色、款式、材料、品牌等,對於同一個消費者來說,每個時尚元素在不同的時間都會有不同的重要程度,因此產品的推薦往往會效果不好,他還指出也許“社會化推薦”會解決這個問題。

3. 變化的用戶喜好

同樣也是由 Paul Edmunds提出的一個問題是,今天我們在Amazon上懷着某一特殊目的瀏覽,而明天我們的目的就會變化。一個經典的例子,某天我在Amazon上爲自己找一本書,另一天我有可能會在Amazon上爲我的妹妹找一個生日禮物。

另外一個有關用戶喜好的話題就是推薦系統有可能會給用戶打上錯誤的標籤,比如經典的2002年華爾街日報上的笑話——If TiVo Thinks You Are Gay, Here’s How to Set It Straight.

4. 無法預測的事物

在我們關於Netflix競賽(由影片在線租賃公司Netflix舉辦的100萬美金的推薦系統競賽活動)的文章中,曾經提到關於某些“怪異電影”的問題,這些影片用戶常常會表現出偏激的喜歡或者討厭,比如《炸彈頭拿破崙》(又名《大人物拿破崙》Napoleon Dynamite)。這些類別的影片很難做出推薦,因爲用戶的反應是多樣化和不可預測的。

在音樂中有很多這樣的內容。你能猜出我同時喜歡Metallica和Carpenters的音樂嗎?我懷疑Last.fm不太能做出這樣的推薦。

5. 推薦系統是複雜的!

我們上面只是說了一些表面的現象,Strands公司曾經介紹過,即使實施一個非常簡單的推薦系統,也需要許多的變量(我們猜想以下的這些變量恐怕還僅僅是一小部分)。 

迄今爲止,只有少數幾家公司可以爲用戶提供高滿意的推薦——Amazon,Netflix(他們仍然在尋求對算法的改進),Google也算是一個。儘管只有這麼少的成功故事,成百上千的其它網站和應用程序仍在努力探尋着推薦系統的魔法公式——以給他們的用戶產生滿意的推薦。

事實上,我們在讀寫網上也非常希望讓讀者圍繞我們的網站產生更多點擊,發現其他內容。我們嘗試了一些插件和方法,以實現這一點——但我們仍未感到滿意。

我們錯過了什麼東西?

在實施推薦系統過程中會遇到很多問題——比如有些僅僅簡單了提供“大衆化”的推薦;有些不能夠形成作古的長尾效應,只能給出一些顯而易見的結果;還有的會有異常推薦等問題。隨着應用和技術的進步,我們還會發現其它的一些問題。

譯者點評:

以上提出的五大問題,在實施個性化推薦服務的過程中,或多或少的都會遇到,但是在不同的類型的網站、不同的內容和用戶、不同的實施階段和不同的目的,所面臨問題的嚴重程度也會不同。

對於數據影響推薦質量的問題:爲什麼有大量數據的公司會做出效果更好的推薦服務,首先推薦系統本身需要數據,其次在海量數據引起的信息過載問題更加嚴重,需求更加迫切。因此推薦系統的作用更加明顯。因此,用戶數據的絕對數量並不是限制推薦系統實施的門檻,而用戶數據的稀疏程度會直接影響推薦的效果。

對於內容數據的變化問題:我們大部分人都不是時尚達人——在一般的服裝電子商務網站上實施個性化推薦還是可以滿足大部分人的需求的。雖然文中舉出的例子有些極端,更像是在長尾的尾部。但是對於某些對時間性有要求的內容也還是會面臨這樣的問題。解決的方法除了對算法本身的選擇和改進以外,還需要在產品設計的過程中加入時間因素的條件。

對於用戶的喜好變化問題:實際上文中提出的例子倒不是喜好的變化,而是目的的變化。因此在進行推薦系統設計時,需要建立更加完整的用戶模型。而對於文中的例子,比較好的處理辦法是單獨設計一個禮物的購物通道,比如 Amazon 上的禮物頁面:http://www.amazon.com/gp/gift-central/

推薦系統確實是非常複雜的,不僅涉及文中提出的數據獲取的問題,還有對數據的處理,對算法的選擇,對參數的優化,產品和服務設計,反饋收集,效果測試和改進,是一個螺旋式上升的過程,它不僅僅是一個或幾個推薦服務新的功能開發,而是需要長期維護和改進,需要專業的團隊和持續的投入才能完成的工作。

實際上效果不錯的推薦服務不僅僅包括文中提到的網站,比如 digg, overstock, yahoo, AT&T等一大批網站也在他們的業務中加入了不錯的推薦服務。還有國內著名的豆瓣,噹噹網都有較高用戶滿意度的推薦產品,所以,請暫時忘了上面的這些問題,Just do it,我們才能克服這些困難。




發佈了50 篇原創文章 · 獲贊 5 · 訪問量 35萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章