推薦算法實戰(二)算法分類

一、常用推薦算法分類

    分類標準

      1. 實時與離線

      2. 是否個性化,還是基於統計

      3. 基於模型去推薦,隨機規則

二、基於人口統計學的推薦與用戶畫像

    1. 原理

       若用戶 a 與 用戶 b 相似,則推薦 a 用戶喜歡的物品給用戶 b

      基於人口統計學的推薦機制是最容易實現的推薦方法,只是簡單地根據基本信息發現用戶的相關程度

      對於沒有明確含義的用戶信息(登錄時間,地域等sangxi)可以通過聚類等手段,給用戶打上分類標籤

      對於特定標籤的用戶,又可以根據預設的規則(知識)或者模型,推薦出對應的物品

      用戶信息標籤化的過程被稱爲 用戶畫像(User Profiling)

    用戶畫像

      公司通過收集與分析消費者的社會屬性、生活習慣、消費行爲等主要信息的數據後,抽象出一個用戶的商業全貌作是企業應用大數據技術的基本方式

      用戶畫像爲公司提供足夠的信息基礎,幫助企業快速的找到精確的用戶羣體

 

三、基於內容的推薦與特徵工程

      Content-based Recommendations(CB) 根據內容的元數據,發現物品的相關性,再基於用戶過去的喜好記錄,爲用戶推薦相似的物品

      重點是抽取物品的特徵值,實現相似計算

          例如:電影有導演,評論,用戶標籤,時長,風格等

    相似度計算

      相似度計算用向量終點的距離或向量的距離計算即可

      

      爲什麼用餘弦相似度來作爲標準,個人認爲是單單用距離無法很好的標籤某些向量之間的區別,可能會出現很多重複的屬性特徵

      還有一些專業名詞也稍微過一下

      專家標籤(PGC) 用戶自定義標籤(UGC) 降維分析數據、提取隱語義標籤(LFM)

      文本信息提取:分詞、語義處理和情感分析(NLP) 潛在語義分析(LSA)

    內容推薦的高層次結構

      

    購物推薦系統常用的數據

      

    基於 UGC 的推薦

      用戶用標籤來描述物品的看法,所以用戶生成標籤(UGC)是聯繫用戶和物品的紐帶,也是反應用戶興趣的重要數據源

      一個用戶標籤行爲的數據集一般由一個三元組(用戶,物品,標籤)的集合表示,其中一條記錄(u,i,b)表示用戶u給物品 i 打上標籤 b

      簡單地計算方法

      ① 統計每個用戶最常用的標籤

      ② 對於每個標籤,統計被打過這個標籤次數最多的物品

      ③ 對於一個用戶,首先找到他常用的標籤,然後找到具有這些標籤的最熱門的物品,推薦給他、

      ④ 所以用戶 u 對物品 i 的興趣公式爲

      

          其中第一個 n 爲用戶 u 打過標籤 b 的次數,第二個是物品 i 被打過標籤 b 的次數

      單對 NLP 有一定了解的同學應該知道,標籤的數量有時可能只是因爲這個詞太過於常見,才導致經常看見他

      在 NLP 裏有 TF-IDF 來進行處理,那這裏不也可以使用 TF-IDF 的方法來減少通用詞彙的影響嗎?

    TF-IDF

      詞頻-逆文檔頻率(Term Frequency-Inverse Document Frequency , TF-IDF)是一種用於資訊檢索與文本挖掘的常用加權技術

      TF-IDF 是用於評估一個詞對於包含這個詞的文章的重要程度分析,一個詞的重要程度會隨着在文章中出現的次數增加,但如果在別的文章中也經常出現,那這個詞的重要程度就會下降。

      TFIDF = TF * IDF

    TF

       詞頻(Term Frequency,TF),該詞在文章中出現的頻率

       對詞數進行歸一化,防止長文章的影響。文章中詞數 除以 總詞數

    IDF

      逆向文件頻率(Inverse Document Frequency,IDF)

      總文檔數目除以包含該詞語的文檔數目,再將得到的商取對數

      

    TF-IDF 對基於 UGC 推薦的改進

      爲了避免所有用戶的首頁都被熱門所佔領,我們需要對熱門物品進行懲罰

      借鑑 TF-IDF ,以一個物品的所有標籤作爲 文章,標籤作爲 詞,從而計算 TF-IDF 

      但在 TF 計算時,詞數除以總詞數,但在物品推薦這裏,總詞數應該沒有影響,所以我們可以略過

      所以 物品的所有標籤 和 標籤總數 都可以除去,直接加入對熱門標籤和熱門物品的懲罰項

      

      

 

 

四、基於協同過濾的推薦

      抽空再做筆記

 

 

 

 

 

 

 

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章