推薦系統的作用和問題

推薦系統(recommender systems)是利用信息過濾技術向用戶推薦其可能感興趣的信息。推薦系統是有別於信息分類和信息搜索的信息處理方式。


信息分類是有序的按照時間/主題/類別/用戶/任務等方式組織結構化信息,瀏覽分類信息可以幫助用戶理解信息之間的組織方式,但是這種信息的呈現方式是基於用戶已知目標信息的所屬類別,用戶認知事物偏向於模糊無序,難以從有序的信息中發現未知並感興趣的信息。


信息搜索是根據和羣體行爲相關的權重排序信息,帶有任務的用戶寄希望能快速搜索到感興趣的內容之後再深入閱讀,再帶着新的任務繼續搜索,而現實的情形是個體用戶不得不調整關鍵詞反覆搜索處於長尾的信息。

隨着信息的快速增長,信息重複和信息過多導致的被動獲取的信息過載,通過搜索引擎主動獲得高質量的信息也會花費更多的成本,推薦系統是解決這些問題最有潛力的方法,其作用在於:

  • 幫助用戶快速發現感興趣和高質量的信息,提升用戶體驗。
  • 增加用戶使用產品時間。
  • 減少用戶瀏覽到重複或者厭惡的信息帶來的不利影響。
  • 提供個性化信息,信息的推薦更爲精準。

推薦系統的問題

薦系統的基本原理是從數據庫中匹配到根據分析用戶行爲推測出的喜好,根據推薦算法的不同,可以分爲以下幾種:

  • 協同過濾系統(collaborative filterring)
  • 基於內容的推薦系統(content-based)
  • 混合推薦系統(hybrid)
  • 基於用戶-產品二部圖網絡結構(network-based)

其中數學公式居多,對於沒有技術功底的設計人員來說有些晦澀難懂,個人嘗試從產品設計的角度依次從數據、數據外圍的產品和用戶三個方面去分析,在分析之前需要了解以下問題:

1.關鍵元數據。元數據是關於數據的數據,可以用來描述和管理數據,如歌曲的演唱者、所屬專輯、發行時間、發行公司和所屬類別,《黑白》出自華納2008年12月發行的方大同專輯《橙月 Orange Moon》。對於推薦系統而言,需要找到影響用戶喜好的重要元數據,假設用戶是方大同的粉絲,那演唱者是關鍵的元數據,用戶可能還會喜歡此專輯中其他歌曲《小小蟲》和《100種表情》,對於喜歡聽新歌的用戶,發行時間可能更爲重要,還有可能因爲用戶喜歡聽R&B。


結構化數據


非結構化數據

 2.結構化和非結構化。元數據之間的結構化的組織(如歌曲的演唱者和演唱者所屬的國籍)可以很方便獲得,但這些的元數據通常只是關鍵元數據之一,還有非結構化的元數據(如節奏、聲調和音色)也會影響用戶的選擇,數據之間的隱形聯繫只能通過大量的分析獲得。

3.關聯性。和用戶的行爲、背景、特徵等相關,分析得出數據之間的規律性特徵。常見的如購書網站上,購買了這本書的用戶有40%購買了另外一本書。又如通過分析大量消費者的購買單挖掘出的數據關聯性,得出啤酒和尿布之間的關聯性。

4.多樣性。關鍵元數據結構化的強弱影響產品的多樣性,比如圖書所屬的類別複雜度高導致了圖書的多樣性,而音樂相對單一。產品的多樣性意味着數據之間隱性的關聯更爲複雜,會增加分析的難度,推薦系統也更復雜。

5.時效性。數據更新的快慢和用戶對新數據的需求影響數據的時效性,如熱門論壇中帖子比博客中的文章時效性高。如微博和新聞這樣時效性較高的數據要求服務器數據更新要高,時間影響推薦系統的重要數據。數據挖掘注重實時分析,根據用戶的每次操作和新的數據的導入提供最新的推薦。

6.難以明確。要求用戶用幾個字詞明確表述自己喜好什麼樣的產品是比較難的,用戶的喜好會隨着時間變化而改變。像Google的音樂推薦,對於大部分普通用戶而言,那種節奏和音色選擇到自己喜好的音樂會比較困難。推薦系統的意義在於根據用戶的歷史記錄去推測用戶的喜好,而不是讓用戶主動去選擇。

7.標籤。用戶添加標籤是組織數據的手動解決方法,但是也會導致其他問題:

  • 非自動化的解決方法會增加用戶操作,難以挖掘數據之間的隱形聯繫。
  • 用戶填寫標籤,由於詞語的模糊性會導致標籤過多,數據之間的聯繫會減弱,降低數據之間凝聚力。
  • 用戶選擇推薦的標籤,易於理解的詞語會導致數據凝聚力過強,導致數據偏向結構化,不利於用戶發現感興趣的內容。

8.打分機制。通常是五分制和兩分制(喜歡/討厭),分值越多,用戶選擇起來越麻煩,需要消除用戶評價體系的差異性。用戶協同過濾的內容偏向大衆化,可以過濾到低質量的內容,但用戶對小衆化低分數的內容不一定就不感興趣。通過調查問卷的方式,用戶會選擇每道題,而通過網絡非強制性打分,用戶不喜歡的內容很有可能不打分或者直接跳到下一個數據。

參考資料:

  1. 推薦系統的五大問題 .《Resys china》
  2. 個性化推薦系統的研究進展.劉建國,周濤,汪秉宏.《自然科學進展》2009年1月第19卷第1期
  3. 豆瓣在推薦領域的實踐和思考 .王守崑
  4. 從web2.0到推薦引擎2.0 .《學而時嘻之》
原文地址:http://daichuanqing.com/index.php/archives/1757



發佈了50 篇原創文章 · 獲贊 5 · 訪問量 35萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章