推薦系統
分類
-
基於內容的系統(Content-Based System) 目前的主流
- 這類系統主要考察的是推薦項的性質。例如,如果一個用戶觀看了同一類型的電影的多部電影,那麼系統就會將數據庫中的同一類型的電影推薦給該用戶。
-
協同過濾系統(Collaborative Filtering System) 目前的主流
- 這類系統通過計算用戶或/和項之間的相似度來推薦項。與某用戶相似的用戶所喜歡的項會推薦給該用戶。
-
基於潛在因子技術 Latent factor based
-
其他技術。這些技術本身並不足夠,有一些新的算法被證明在推薦系統中十分有效。
效用矩陣
utility matrix
X =客戶組 Customers
S =項目集 Items
實用功能 Utility function u:X×SR
- R =一組評分的集合
- R是一個完全有序的集合
- 例如1-5星,實數爲[0,1]
效用矩陣步驟
(1)收集矩陣的“已知”等級
Gathering “known” ratings for matrix
- 如何收集效用矩陣中的數據
(2)從已知的向外推出未知的評分 - 我們對您不滿意的內容不感興趣 但是感興趣你喜歡什麼
(3)評估外推方法 - 如何衡量推薦方法的成功/績效
用戶模型
我們不僅僅要爲項建立向量表示,也需要將用戶的偏好表示成同一空間下的向量。我們擁有將項和用戶關聯起來的效用矩陣,效用矩陣中的每個非空元素可以代表用戶購買過該項或類似關係,也可以是表示用戶對項的評分或喜好程度的一個任意數字。
在上述信息下,要知道用戶到底喜歡哪些項,最好的估計方法就是對這些項的模型進行某種累計。如果效用矩陣僅僅包含1,那麼最自然的累計方法就是用戶在效用矩陣中元素爲1的所有項的表示向量求平均值。
決策樹
決策樹是一顆組織成二叉樹的節點集合。其中葉子節點代表決策,在我們的例子,決策可能是“喜歡”或者“不喜歡”。每個內部節點代表分類對象要滿足一個條件,這裏的條件可能是涉及一個或者多個項特徵的謂詞表達式。
基於內容的推薦系統
優勢:
- +:不需要協同其他用戶的數據
- 不用解決冷啓動或稀疏問題
- +:可以向具有以下要求的用戶推薦
- 個性化的風格
- +:可以推薦新的和不受歡迎的商品
- 不只是排名前的
- +:能夠提供可解釋性
存在的問題
- –:有一些很難找到合適特性的內容 Finding the appropriate features is hard
- 例如圖像,電影,音樂
- –:沒有對新用戶的建議 Recommendations for new users
- 如何建立用戶檔案?
- –:過度專業化 Overspecialization
- 絕不推薦用戶以外的商品內容
- 人們可能有多種興趣
- 無法利用其他用戶的質量判斷