人工智能教程 - 專業選修課程4.3.11 - 複雜結構數據挖掘 8.推薦系統,大數據注意事項

推薦系統

分類

  • 基於內容的系統(Content-Based System) 目前的主流

    • 這類系統主要考察的是推薦項的性質。例如,如果一個用戶觀看了同一類型的電影的多部電影,那麼系統就會將數據庫中的同一類型的電影推薦給該用戶。
  • 協同過濾系統(Collaborative Filtering System) 目前的主流

    • 這類系統通過計算用戶或/和項之間的相似度來推薦項。與某用戶相似的用戶所喜歡的項會推薦給該用戶。
  • 基於潛在因子技術 Latent factor based

  • 其他技術。這些技術本身並不足夠,有一些新的算法被證明在推薦系統中十分有效。

效用矩陣

utility matrix

X =客戶組 Customers
S =項目集 Items
實用功能 Utility function u:X×S\rightarrowR

  • R =一組評分的集合
  • R是一個完全有序的集合
  • 例如1-5星,實數爲[0,1]

在這裏插入圖片描述

效用矩陣步驟

(1)收集矩陣的“已知”等級
Gathering “known” ratings for matrix

  • 如何收集效用矩陣中的數據
    (2)從已知的向外推出未知的評分
  • 我們對您不滿意的內容不感興趣 但是感興趣你喜歡什麼
    (3)評估外推方法
  • 如何衡量推薦方法的成功/績效

用戶模型

我們不僅僅要爲項建立向量表示,也需要將用戶的偏好表示成同一空間下的向量。我們擁有將項和用戶關聯起來的效用矩陣,效用矩陣中的每個非空元素可以代表用戶購買過該項或類似關係,也可以是表示用戶對項的評分或喜好程度的一個任意數字。
在上述信息下,要知道用戶到底喜歡哪些項,最好的估計方法就是對這些項的模型進行某種累計。如果效用矩陣僅僅包含1,那麼最自然的累計方法就是用戶在效用矩陣中元素爲1的所有項的表示向量求平均值。

決策樹

決策樹是一顆組織成二叉樹的節點集合。其中葉子節點代表決策,在我們的例子,決策可能是“喜歡”或者“不喜歡”。每個內部節點代表分類對象要滿足一個條件,這裏的條件可能是涉及一個或者多個項特徵的謂詞表達式。

基於內容的推薦系統

優勢:

  • +:不需要協同其他用戶的數據
    • 不用解決冷啓動或稀疏問題
  • +:可以向具有以下要求的用戶推薦
    • 個性化的風格
  • +:可以推薦新的和不受歡迎的商品
    • 不只是排名前的
  • +:能夠提供可解釋性

存在的問題

  • –:有一些很難找到合適特性的內容 Finding the appropriate features is hard
    • 例如圖像,電影,音樂
  • –:沒有對新用戶的建議 Recommendations for new users
    • 如何建立用戶檔案?
  • –:過度專業化 Overspecialization
    • 絕不推薦用戶以外的商品內容
    • 人們可能有多種興趣
    • 無法利用其他用戶的質量判斷

協同過濾

在這裏插入圖片描述

找相似用戶

在這裏插入圖片描述

相似性指標

在這裏插入圖片描述

評分預測

在這裏插入圖片描述

大數據注意事項

  • 利用所有數據Leverage all the data

    • 請勿嘗試爲了使花式算法起作用,而減少數據量。

    • 處理大數據的方法:簡單最有效

  • 添加更多數據

    • 例如,在流派上添加IMDB數據

更多數據勝過更好的算法

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章