推薦算法實戰（二）算法分類

原創

2020-05-07 13:49

一、常用推薦算法分類

分類標準

1. 實時與離線

2. 是否個性化，還是基於統計

3. 基於模型去推薦，隨機規則

二、基於人口統計學的推薦與用戶畫像

1. 原理

若用戶 a 與用戶 b 相似，則推薦 a 用戶喜歡的物品給用戶 b

基於人口統計學的推薦機制是最容易實現的推薦方法，只是簡單地根據基本信息發現用戶的相關程度

對於沒有明確含義的用戶信息（登錄時間，地域等sangxi）可以通過聚類等手段，給用戶打上分類標籤

對於特定標籤的用戶，又可以根據預設的規則（知識）或者模型，推薦出對應的物品

用戶信息標籤化的過程被稱爲用戶畫像（User Profiling）

用戶畫像

公司通過收集與分析消費者的社會屬性、生活習慣、消費行爲等主要信息的數據後，抽象出一個用戶的商業全貌作是企業應用大數據技術的基本方式

用戶畫像爲公司提供足夠的信息基礎，幫助企業快速的找到精確的用戶羣體

三、基於內容的推薦與特徵工程

Content-based Recommendations(CB) 根據內容的元數據，發現物品的相關性，再基於用戶過去的喜好記錄，爲用戶推薦相似的物品

重點是抽取物品的特徵值，實現相似計算

例如：電影有導演，評論，用戶標籤，時長，風格等

相似度計算

相似度計算用向量終點的距離或向量的距離計算即可

爲什麼用餘弦相似度來作爲標準，個人認爲是單單用距離無法很好的標籤某些向量之間的區別，可能會出現很多重複的屬性特徵

還有一些專業名詞也稍微過一下

專家標籤（PGC）用戶自定義標籤（UGC）降維分析數據、提取隱語義標籤（LFM）

文本信息提取：分詞、語義處理和情感分析（NLP）潛在語義分析（LSA）

內容推薦的高層次結構

購物推薦系統常用的數據

基於 UGC 的推薦

用戶用標籤來描述物品的看法，所以用戶生成標籤（UGC）是聯繫用戶和物品的紐帶，也是反應用戶興趣的重要數據源

一個用戶標籤行爲的數據集一般由一個三元組（用戶，物品，標籤）的集合表示，其中一條記錄（u,i,b）表示用戶u給物品 i 打上標籤 b

簡單地計算方法

① 統計每個用戶最常用的標籤

② 對於每個標籤，統計被打過這個標籤次數最多的物品

③ 對於一個用戶，首先找到他常用的標籤，然後找到具有這些標籤的最熱門的物品，推薦給他、

④ 所以用戶 u 對物品 i 的興趣公式爲

其中第一個 n 爲用戶 u 打過標籤 b 的次數，第二個是物品 i 被打過標籤 b 的次數

單對 NLP 有一定了解的同學應該知道，標籤的數量有時可能只是因爲這個詞太過於常見，才導致經常看見他

在 NLP 裏有 TF-IDF 來進行處理，那這裏不也可以使用 TF-IDF 的方法來減少通用詞彙的影響嗎？

TF-IDF

詞頻-逆文檔頻率（Term Frequency-Inverse Document Frequency , TF-IDF）是一種用於資訊檢索與文本挖掘的常用加權技術

TF-IDF 是用於評估一個詞對於包含這個詞的文章的重要程度分析，一個詞的重要程度會隨着在文章中出現的次數增加，但如果在別的文章中也經常出現，那這個詞的重要程度就會下降。

TFIDF = TF * IDF

TF

詞頻（Term Frequency,TF），該詞在文章中出現的頻率

對詞數進行歸一化，防止長文章的影響。文章中詞數除以總詞數

IDF

逆向文件頻率（Inverse Document Frequency,IDF）

總文檔數目除以包含該詞語的文檔數目，再將得到的商取對數

TF-IDF 對基於 UGC 推薦的改進

爲了避免所有用戶的首頁都被熱門所佔領，我們需要對熱門物品進行懲罰

借鑑 TF-IDF ，以一個物品的所有標籤作爲文章，標籤作爲詞，從而計算 TF-IDF

但在 TF 計算時，詞數除以總詞數，但在物品推薦這裏，總詞數應該沒有影響，所以我們可以略過

所以物品的所有標籤和標籤總數都可以除去，直接加入對熱門標籤和熱門物品的懲罰項

四、基於協同過濾的推薦

抽空再做筆記

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

推薦算法實戰（二）算法分類

一、常用推薦算法分類

分類標準

二、基於人口統計學的推薦與用戶畫像

1. 原理

用戶畫像

三、基於內容的推薦與特徵工程

相似度計算

內容推薦的高層次結構

購物推薦系統常用的數據

基於 UGC 的推薦

TF-IDF

TF

IDF

TF-IDF 對基於 UGC 推薦的改進

四、基於協同過濾的推薦

數據處理（1）-python 正則表達式彙總

TensorfFlow2.0 (2) 超參數搜索代碼實戰

TensorFlow2.0 (1) wide and deep 模型多輸入代碼詳解

Docker 服務部署和使用

Ubuntu 16 升 18

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結