一、常用推薦算法分類
分類標準
1. 實時與離線
2. 是否個性化,還是基於統計
3. 基於模型去推薦,隨機規則
二、基於人口統計學的推薦與用戶畫像
1. 原理
若用戶 a 與 用戶 b 相似,則推薦 a 用戶喜歡的物品給用戶 b
基於人口統計學的推薦機制是最容易實現的推薦方法,只是簡單地根據基本信息發現用戶的相關程度
對於沒有明確含義的用戶信息(登錄時間,地域等sangxi)可以通過聚類等手段,給用戶打上分類標籤
對於特定標籤的用戶,又可以根據預設的規則(知識)或者模型,推薦出對應的物品
用戶信息標籤化的過程被稱爲 用戶畫像(User Profiling)
用戶畫像
公司通過收集與分析消費者的社會屬性、生活習慣、消費行爲等主要信息的數據後,抽象出一個用戶的商業全貌作是企業應用大數據技術的基本方式
用戶畫像爲公司提供足夠的信息基礎,幫助企業快速的找到精確的用戶羣體
三、基於內容的推薦與特徵工程
Content-based Recommendations(CB) 根據內容的元數據,發現物品的相關性,再基於用戶過去的喜好記錄,爲用戶推薦相似的物品
重點是抽取物品的特徵值,實現相似計算
例如:電影有導演,評論,用戶標籤,時長,風格等
相似度計算
相似度計算用向量終點的距離或向量的距離計算即可
爲什麼用餘弦相似度來作爲標準,個人認爲是單單用距離無法很好的標籤某些向量之間的區別,可能會出現很多重複的屬性特徵
還有一些專業名詞也稍微過一下
專家標籤(PGC) 用戶自定義標籤(UGC) 降維分析數據、提取隱語義標籤(LFM)
文本信息提取:分詞、語義處理和情感分析(NLP) 潛在語義分析(LSA)
內容推薦的高層次結構
購物推薦系統常用的數據
基於 UGC 的推薦
用戶用標籤來描述物品的看法,所以用戶生成標籤(UGC)是聯繫用戶和物品的紐帶,也是反應用戶興趣的重要數據源
一個用戶標籤行爲的數據集一般由一個三元組(用戶,物品,標籤)的集合表示,其中一條記錄(u,i,b)表示用戶u給物品 i 打上標籤 b
簡單地計算方法
① 統計每個用戶最常用的標籤
② 對於每個標籤,統計被打過這個標籤次數最多的物品
③ 對於一個用戶,首先找到他常用的標籤,然後找到具有這些標籤的最熱門的物品,推薦給他、
④ 所以用戶 u 對物品 i 的興趣公式爲
其中第一個 n 爲用戶 u 打過標籤 b 的次數,第二個是物品 i 被打過標籤 b 的次數
單對 NLP 有一定了解的同學應該知道,標籤的數量有時可能只是因爲這個詞太過於常見,才導致經常看見他
在 NLP 裏有 TF-IDF 來進行處理,那這裏不也可以使用 TF-IDF 的方法來減少通用詞彙的影響嗎?
TF-IDF
詞頻-逆文檔頻率(Term Frequency-Inverse Document Frequency , TF-IDF)是一種用於資訊檢索與文本挖掘的常用加權技術
TF-IDF 是用於評估一個詞對於包含這個詞的文章的重要程度分析,一個詞的重要程度會隨着在文章中出現的次數增加,但如果在別的文章中也經常出現,那這個詞的重要程度就會下降。
TFIDF = TF * IDF
TF
詞頻(Term Frequency,TF),該詞在文章中出現的頻率
對詞數進行歸一化,防止長文章的影響。文章中詞數 除以 總詞數
IDF
逆向文件頻率(Inverse Document Frequency,IDF)
總文檔數目除以包含該詞語的文檔數目,再將得到的商取對數
TF-IDF 對基於 UGC 推薦的改進
爲了避免所有用戶的首頁都被熱門所佔領,我們需要對熱門物品進行懲罰
借鑑 TF-IDF ,以一個物品的所有標籤作爲 文章,標籤作爲 詞,從而計算 TF-IDF
但在 TF 計算時,詞數除以總詞數,但在物品推薦這裏,總詞數應該沒有影響,所以我們可以略過
所以 物品的所有標籤 和 標籤總數 都可以除去,直接加入對熱門標籤和熱門物品的懲罰項
四、基於協同過濾的推薦
抽空再做筆記