推薦系統的實現

原創

请不要再掉头发了

2020-05-13 03:52

目錄

混合推薦

推薦系統的基本思想

利用用戶和物品的特徵信息，給用戶推薦那些具有用戶喜歡的特徵的物品。
利用用戶喜歡過的物品，給用戶推薦與他喜歡過的物品相似的物品。
利用和用戶相似的其他用戶，給用戶推薦那些和他們興趣愛好相似的其他用
戶喜歡的物品。

推薦系統的數據分析

• 要推薦物品或內容的元數據，例如關鍵字，分類標籤，基因描述等；
• 系統用戶的基本信息，例如性別，年齡，興趣標籤等
• 用戶的行爲數據，可以轉化爲對物品或者信息的偏好，根據應用本身的不同，
可能包括用戶對物品的評分，用戶查看物品的記錄，用戶的購買記錄等。這些用戶的偏好信息可以分爲兩類：

顯式的用戶反饋：這類是用戶在網站上自然瀏覽或者使用網站以外，顯式的提供反饋信息，例如用戶對物品的評分，或者對物品的評論。
隱式的用戶反饋：這類是用戶在使用網站是產生的數據，隱式的反應了用戶對物品的喜好，例如用戶購買了某物品，用戶查看了某物品的信息等等。

推薦系統的分類

根據實時性分類
– 離線推薦
– 實時推薦
根據推薦原則分類
– 基於相似度的推薦
– 基於知識的推薦
– 基於模型的推薦
根據推薦是否個性化分類
– 基於統計的推薦
– 個性化推薦
根據數據源分類
– 基於人口統計學的推薦
– 基於內容的推薦
– 基於協同過濾的推薦

推薦算法簡介

基於人口統計學的推薦
基於內容的推薦
基於協同過濾的推薦
混合推薦

基於人口統計學的推薦

基於內容的推薦

基於協同過濾的推薦

協同過濾（Collaborative Filtering，CF）比較依賴歷史數據
• 基於近鄰的協同過濾
– 基於用戶（User-CF）
– 基於物品（Item-CF）
• 基於模型的協同過濾
– 奇異值分解（SVD）
– 潛在語義分析（LSA）
– 支撐向量機（SVM）

基於用戶的協同過濾

基於物品的協同過濾

混合推薦

實際網站的推薦系統往往都不是單純只採用了某一種推薦的機制和策略，往往是將多個方法混合在一起，從而達到更好的推薦效果。比較流行的組合方法有：
• 加權混合
– 用線性公式（linear formula）將幾種不同的推薦按照一定權重組合起來，具體權重的值需要在測試數據集上反覆實驗，從而達到最好的推薦效果
• 切換混合
– 切換的混合方式，就是允許在不同的情況（數據量，系統運行狀況，用戶和物品的數目等）下，選擇最爲合適的推薦機制計算推薦
• 分區混合
– 採用多種推薦機制，並將不同的推薦結果分不同的區顯示給用戶
• 分層混合
– 採用多種推薦機制，並將一個推薦機制的結果作爲另一個的輸入，從而綜合各個推薦機制的優缺點，得到更加準確的推薦

推薦系統實驗方法

離線實驗
– 通過體制系統獲得用戶行爲數據，並按照一定格式生成一個標準的數據集
– 將數據集按照一定的規則分成訓練集和測試集
– 在訓練集上訓練用戶興趣模型，在測試集上進行預測
– 通過事先定義的離線指標評測算法在測試集上的預測結果
用戶調查
– 用戶調查需要有一些真實用戶，讓他們在需要測試的推薦系統上完成一些任務；我們需要記錄他們的行爲，並讓他們回答一些問題；最後進行分析
在線實驗
– AB測試

推薦準確度評測

• 評分預測
– 很多網站都有讓用戶給物品打分的功能，如果知道用戶對物品的歷史評分，就可以從中學習一個興趣模型，從而預測用戶對新物品的評分
– 評分預測的準確度一般用均方根誤差（RMSE）或平均絕對誤差（MAE）計算

• Top-N推薦
– 網站提供推薦服務時，一般是給用戶一個個性化的推薦列表，這種推薦叫做Top-N推薦
– Top-N推薦的預測準確率一般用精確率（precision）和召回率（recall）來度量

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Stable Diffusion中的embedding

Stable Diffusion中的embedding 嵌入，也稱爲文本反轉，是在 Stable Diffusion 中控制圖像樣式的另一種方法。在這篇文章中，我們將學習什麼是嵌入，在哪裏可以找到它們，以及如何使用它們。什麼是嵌入embe

2024-04-25 21:31:13

AI從入門到入門之手寫數字識別模型java方式Dense全連接神經網絡實現

前言：授人以魚不如授人以漁.先學會用，在學原理，在學創造，可能一輩子用不到這種能力，但是不能不具備這種能力。這篇文章主要是介紹算法入門Helloword之手寫圖片識別模型java中如何實現以及部分解釋。目前大家對於人工智能-機器學習-神經網

2024-04-19 23:17:21

京東廣告研發 —— 京東推薦廣告排序機制演化

1、序言：廣告排序機制的前世今生 1.1、簡介：廣告排序機制在線廣告是國內外各大互聯網公司的重要收入來源之一，而在線廣告與傳統廣告最大的區別就在於其超大規模的實時競價環境：數以萬計的廣告主在一天內可以參與億級別的流量競拍。在這複雜的實

2024-04-24 23:17:14

從NoSQL到NewSQL——10年代大數據浪潮下的技術革新

引言在數字化浪潮的推動下，數據庫技術已成爲支撐數字經濟的堅實基石。騰訊雲 TVP《技術指針》聯合《明說三人行》特別策劃的直播系列——【中國數據庫前世今生】，我們將通過五期直播，帶您穿越五個十年，深入探討每個時代的數據庫演變

2024-04-28 23:12:26

“百團大戰”下，20年代的國產數據庫如何乘風破浪？

引言在數字化浪潮的推動下，數據庫技術已成爲支撐數字經濟的堅實基石。騰訊雲 TVP《技術指針》聯合《明說三人行》特別策劃的直播系列——【中國數據庫前世今生】，我們將通過五期直播，帶您穿越五個十年，深入探討每個時代的數據庫

2024-04-28 23:12:24

大數據小白的測試成長之路

引言 22年校招入職京東後，我一直在數據中臺測試部從事測試開發的工作。畢業後，寫的最多的文檔是測試計劃和測試報告，鮮有機會就自己的成長碼字進行回顧和總結。借“up技術人”欄目，也終於是在工作之餘回頭望，對自己這近兩年時光進行一個小總結

2024-04-28 11:17:19

如何從0到1設計診斷系統

引言在整車電子電氣體系中，診斷系統的設計扮演着至關重要的角色，負責支持整車的刷寫、故障排查和EOL(End of Line)等關鍵操作。這一重要性在於這些操作的實現都依賴於診斷系統的全面支持。因此，在設計診斷系統時，必須確保

2024-04-26 22:43:26

華爲雲Stack8.3面向香港正式發佈，六大亮點激發雲上躍遷

本文分享自華爲雲社區《華爲雲Stack8.3面向香港正式發佈，六大亮點激發雲上躍遷》，作者：華爲雲頭條。 2024年4月23日，在華爲雲香港峯會2024上，華爲混合雲副總裁胡玉海面向香港市場發佈華爲雲Stack8.3，提供110+本地

2024-04-26 10:33:21

對接HiveMetaStore，擁抱開源大數據

本文分享自華爲雲社區《對接HiveMetaStore，擁抱開源大數據》，作者：睡覺是大事。 1. 前言適用版本：9.1.0及以上在大數據融合分析時代，面對海量的數據以及各種複雜的查詢，性能是我們使用一款數據處理引擎最重要的考量

2024-04-24 22:33:08

重磅新品發佈！雲耀數據庫HRDS，享受輕量級的極致體驗

本文分享自華爲雲社區《重磅新品發佈！雲耀數據庫HRDS，享受輕量級的極致體驗！》，作者：GaussDB 數據庫。所謂，凡有井水處，即能歌柳詞。大數據時代，凡有數據處，必有數據庫。隨着業務需求的不斷擴大和數據量的激增，數

2024-04-23 22:32:33

沙特2030年願景和對中國IT企業的市場機會分析

沙特2030年願景和對中國IT企業的市場機會分析前言：最近“開源老DJ，帶你去沙特”欄目第一期已經播出，收到了不錯的反響。見COPU官網的回顧。（https://mp.weixin.qq.com/s/3B0jNVhybxTF1xPiy

2024-04-23 22:24:54

03-爲啥大模型LLM還沒能完全替代你？

1 不具備記憶能力的它是零狀態的，我們平常在使用一些大模型產品，尤其在使用他們的API的時候，我們會發現那你和它對話，尤其是多輪對話的時候，經過一些輪次後，這些記憶就消失了，因爲它也記不住那麼多。 2 上下文窗口的限制大模型對其inpu

2024-04-23 01:07:00

入職3年-我如何做一名AI產品經理

引言從2021年校招加入京東開始，我一直從事AI產品經理的工作，有幸見證了AI行業的熱情從一臺臺服務器燒到了全世界各個角落，也見證了京東AI中臺團隊的影響力如何一步步的擴大。從21年的迷茫到24年的堅定，很慶幸我正走在適合自己的道路上，

2024-04-22 11:16:31

01-大語言模型發展

AI大模型的相關的一些基礎知識，一些背景和基礎知識。多模型強應用AI 2.0時代應用開發者的機會。 0 大綱 AI產業的拆解和常見名詞應用級開發者，在目前這樣一個大背景下的一個職業上面的一些機會實戰部分的，做這個agent，即所謂智

2024-04-22 01:12:50

WhaleScheduler爲銀行業全信創環境打造統一調度管理平臺解決方案

項目背景數字金融是數字經濟的重要支撐和驅動力。近年來，我國針對數字金融的發展政策頻頻出臺，《金融科技發展規劃（2022-2025年）》、《“十四五”數字經濟發展規劃》、《關於銀行業保險業數字化轉型的指導意見》、《金融標準化“十四五”

2024-04-19 21:18:25

24小時熱門文章

最新文章

最新評論文章