讀書筆記:推薦系統實踐-第三章-推薦系統冷啓動問題

1、冷啓動問題簡介

冷啓動主要分爲三類:

  • 用戶冷啓動
  • 物品冷啓動
  • 系統冷啓動

對於冷啓動問題的一些解決方案:

  • 提供非個性化推薦,如熱門排行榜,行爲數據積累到一定程度以後再用個性化推薦
  • 利用用戶註冊時提供的年齡、性別等數據做粗粒度的個性化
  • 利用用戶的社交網絡賬號登錄(需要用戶授權),導入用戶在社交網站上的好友信息,然後給用戶推薦其好友喜歡的物品
  • 要求用戶在登錄時對一些物品進行反饋,收集用戶對這些物品的興趣信息,然後給用戶推薦那些和這些物品相似的物品
  • 對於新加入的物品,可以利用內容信息,將它們推薦給喜歡過和它們相似的物品的用戶
  • 引入專家的知識,通過一定的高效方式迅速建立起物品的相關度表。

下面分別進行介紹

2、利用用戶註冊信息

註冊信息有三種,這裏主要討論第一種:

  • 人口統計學信息 包括用戶的年齡、性別、職業、民族、學歷和居住地
  • 用戶興趣的描述 有一些網站會讓用戶用文字描述他們的興趣
  • 從其他網站導入的用戶站外行爲數據

基本推薦流程:

  • 獲取用戶的註冊信息
  • 根據用戶的註冊信息對用戶分類,有時候也可以考慮組合特徵
  • 給用戶推薦他所屬分類中用戶喜歡的物品,取最喜歡的topN進行推薦

算法核心問題:計算每種特徵的用戶對各個物品的喜好程度,α是爲了解決稀疏問題。
在這裏插入圖片描述
利用的用戶人口統計學特徵越多,越能準確地預測用戶興趣

3、選擇適合的物品啓動用戶興趣

主要問題:如何選擇物品讓用戶進行反饋
選擇物品需要如下特點:

  • 比較熱門
  • 具有代表性和區分性
  • 啓動物品集合需要有多樣性
    如何選擇啓動物品集合的系統?
  • Nadav Golbandi說用決策樹解決,這棵樹的分裂是以區分度來度量的
    在這裏插入圖片描述在這裏插入圖片描述

4、利用物品的內容信息

UserCF和ItemCF與冷啓動問題

  • UserCF對物品冷啓動問題不敏感。很多網站對用戶不止有推薦列表一個曝光位置,基於其他位置的曝光可以得到最初的一些行爲數據,基於這些行爲數據進行推薦就可以。但是當推薦列表是主要的信息獲取途徑的時候,就需要考慮利用物品的內容信息。
  • ItemCF對物品冷啓動問題比較敏感,因此只能利用物品的內容信息計算物品相關表,並且頻繁地更新相關表
    在這裏插入圖片描述

物品內容表示可以使用向量空間模型在這裏插入圖片描述

  • ei就是關鍵詞, wi是關鍵詞對應的權重。w可以是TF-IDF,也可以是推薦物如電影的時候,演員的重要程度。
  • 物品的內容相似度可以通過向量之間的餘弦相似度計算
  • 具體計算可以考慮協同過濾過程中使用倒排表的手法

ItemCF VS 內容相似度

  • 內容相似度會忽視用戶行爲,以及物品的流行度和用戶行爲中所包含的規律
  • 如果用戶的行爲受到某一內容屬性的影響,那麼內容過濾算法可以在精度上超過協同過濾算法,但是這種強內容特徵需要豐富的領域知識。

當文本比較短時,話題模型LDA更有用

基本思想:一個人在寫一篇文檔的時候,會首先想這篇文章要討論哪些話題,然後 思考這些話題應該用什麼詞描述,從而最終用詞寫成一篇文章。因此,文章和詞之間是通過話 題聯繫的。

LDA的計算過程包括初始化和迭代兩部分。

  • 首先要對z進行初始化,而初始化的方法很簡單, 假設一共有K個話題,那麼對第i篇文章中的第j個詞,可以隨機給它賦予一個話題。同時,用NWZ(w,z)記錄詞w被賦予話題z的次數,NZD(z,d)記錄文檔d中被賦予話題z的詞的個數。
  • 在初始化之後,要通過迭代使話題的分佈收斂到一個合理的分佈上去

在使用LDA計算物品的內容相似度時,我們可以先計算出物品在話題上的分佈,然後利用兩 個物品的話題分佈計算物品的相似度。

計算分佈的相似度可以利用KL散度:
在這裏插入圖片描述

5、發揮專家的作用

利用專家進行標註

Jinni的例子:半人工、半自動

  • 首先,它讓專家對電影進行標記,每個電影都有大約50個基因,這些基因來自大約1000個基因庫。
  • 然後,使用自然語言理解和機器學習技術,通過分析用戶對電影的評論和電影的一些內容屬性對電影(特別是新電影)進行自己的標記
  • 同時,設計了讓用戶對基因進行反饋的界面,希望通過用戶反饋不斷改進電影基因系統
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章