推荐系统的实现

原創

请不要再掉头发了

2020-05-13 03:52

目录

混合推荐

推荐系统的基本思想

利用用户和物品的特征信息，给用户推荐那些具有用户喜欢的特征的物品。
利用用户喜欢过的物品，给用户推荐与他喜欢过的物品相似的物品。
利用和用户相似的其他用户，给用户推荐那些和他们兴趣爱好相似的其他用
户喜欢的物品。

推荐系统的数据分析

• 要推荐物品或内容的元数据，例如关键字，分类标签，基因描述等；
• 系统用户的基本信息，例如性别，年龄，兴趣标签等
• 用户的行为数据，可以转化为对物品或者信息的偏好，根据应用本身的不同，
可能包括用户对物品的评分，用户查看物品的记录，用户的购买记录等。这些用户的偏好信息可以分为两类：

显式的用户反馈：这类是用户在网站上自然浏览或者使用网站以外，显式的提供反馈信息，例如用户对物品的评分，或者对物品的评论。
隐式的用户反馈：这类是用户在使用网站是产生的数据，隐式的反应了用户对物品的喜好，例如用户购买了某物品，用户查看了某物品的信息等等。

推荐系统的分类

根据实时性分类
– 离线推荐
– 实时推荐
根据推荐原则分类
– 基于相似度的推荐
– 基于知识的推荐
– 基于模型的推荐
根据推荐是否个性化分类
– 基于统计的推荐
– 个性化推荐
根据数据源分类
– 基于人口统计学的推荐
– 基于内容的推荐
– 基于协同过滤的推荐

推荐算法简介

基于人口统计学的推荐
基于内容的推荐
基于协同过滤的推荐
混合推荐

基于人口统计学的推荐

基于内容的推荐

基于协同过滤的推荐

协同过滤（Collaborative Filtering，CF）比较依赖历史数据
• 基于近邻的协同过滤
– 基于用户（User-CF）
– 基于物品（Item-CF）
• 基于模型的协同过滤
– 奇异值分解（SVD）
– 潜在语义分析（LSA）
– 支撑向量机（SVM）

基于用户的协同过滤

基于物品的协同过滤

混合推荐

实际网站的推荐系统往往都不是单纯只采用了某一种推荐的机制和策略，往往是将多个方法混合在一起，从而达到更好的推荐效果。比较流行的组合方法有：
• 加权混合
– 用线性公式（linear formula）将几种不同的推荐按照一定权重组合起来，具体权重的值需要在测试数据集上反复实验，从而达到最好的推荐效果
• 切换混合
– 切换的混合方式，就是允许在不同的情况（数据量，系统运行状况，用户和物品的数目等）下，选择最为合适的推荐机制计算推荐
• 分区混合
– 采用多种推荐机制，并将不同的推荐结果分不同的区显示给用户
• 分层混合
– 采用多种推荐机制，并将一个推荐机制的结果作为另一个的输入，从而综合各个推荐机制的优缺点，得到更加准确的推荐

推荐系统实验方法

离线实验
– 通过体制系统获得用户行为数据，并按照一定格式生成一个标准的数据集
– 将数据集按照一定的规则分成训练集和测试集
– 在训练集上训练用户兴趣模型，在测试集上进行预测
– 通过事先定义的离线指标评测算法在测试集上的预测结果
用户调查
– 用户调查需要有一些真实用户，让他们在需要测试的推荐系统上完成一些任务；我们需要记录他们的行为，并让他们回答一些问题；最后进行分析
在线实验
– AB测试

推荐准确度评测

• 评分预测
– 很多网站都有让用户给物品打分的功能，如果知道用户对物品的历史评分，就可以从中学习一个兴趣模型，从而预测用户对新物品的评分
– 评分预测的准确度一般用均方根误差（RMSE）或平均绝对误差（MAE）计算

• Top-N推荐
– 网站提供推荐服务时，一般是给用户一个个性化的推荐列表，这种推荐叫做Top-N推荐
– Top-N推荐的预测准确率一般用精确率（precision）和召回率（recall）来度量

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

为程序员和新手准备的 8 大 Python 工具

Python 是一種開源編程語言，用於 Web 編程、數據科學、人工智能和許多科學應用。學習 Python 使程序員能夠專注於解決問題，而不是專注於語法，其豐富的庫賦予它完成偉大任務所需的力量。 1) IDLE 安裝 Python 時

2024-05-14 01:06:43

我宣布，这是我找到的史上AI最全论文体系！

在碎片化閱讀充斥眼球的時代，越來越少的人會去關注每篇論文背後的探索和思考。搞AI，不少人都進入一個誤區，那就是隻鑽研自己的代碼是否精進，而沒有注意提升自己的閱讀能力。實際上，一個專業的學術研究員或者AI研究員可能需要花費幾百個小

2024-05-13 21:33:50

探索未知：风靡硅谷开发者的 Unstructured Data Meetup 即将登陆中国l

“最硅谷”的 Unstructured Data Meetup 即將來襲！衆所周知，AI 三要素包括：算力、算法和數據。數據的價值愈發凸顯，而其中非結構化數據更是備受關注。IDC 預測，到 2025 年，全球數據總量中將有超過 80% 的

2024-05-13 21:25:35

攻击者正在利用AI，对保险公司发起大规模欺诈

保險欺詐一直是保險行業面臨的重要挑戰之一，尤其隨着技術的進步，欺詐者也在不斷更新其手段，利用AI技術，包括生成式模型、機器學習和數據分析工具等欺騙保險公司，而AI技術的應用正成爲他們的新工具，使其犯罪行爲更加隱蔽和複雜，挑戰保險行業的防欺詐

2024-05-10 00:55:17

理论+实践，带你了解分布式训练

本文分享自華爲雲社區《大模型LLM之分佈式訓練》，作者：碼上開花_Lancer。隨着語言模型參數量和所需訓練數據量的急速增長，單個機器上有限的資源已無法滿足大語言模型訓練的要求。需要設計分佈式訓練（Distributed Trainin

2024-05-08 22:38:41

企业IT架构治理之道

一、什麼是架構和治理 1.1 架構的起源開篇還是要說說大家理解的架構，何爲架構，架構跟我們的工作和生活有什麼關係。英文Architecture本源來自於拉丁語，最早起源於建築領域，建築是文明社會一個重要的標誌，同時也是人類社會最早

京東雲開發者

2024-05-13 23:59:32

内嵌专业接口的RISC-V架构MCU，谁家有？

前一陣，蘋果推出了M1處理器，相比關注具體指標，業內其實更關心M1推出後會引領產業往哪個方向發展，不少人的結論是RISC-V會成爲未來芯片發展的熱點，因爲RISC-V有很多巧妙的方法可以提高性能。計算機界泰斗David Patterso

2024-05-13 23:26:39

免费报名|Zabbix受邀出席上海开源技术沙龙，探讨开源软件赋能新质生产力

大家好！5月25日我們將舉辦今年第三期上海開源技術沙龍活動。本次的主題是——開源軟件賦能新質生產力。在上海開源信息技術協會 (SHOpen) 的指導下，隨着活動的持續開展，上海開源技術沙龍獲得了越來越多開發者的關注與

2024-05-13 22:34:43

神策数据：详解保险 OMO 一体化的关键步骤

近年來，保險行業數字化發展相關政策陸續發佈，推動着保險行業基於業務與科技發展的實際需求，加速數字化轉型，將數字保險高質量發展持續提升至新的高度。本文將圍繞保險數字化，詳細解讀險企實現 OMO 一體化的關鍵步驟。一、洞察：雙利見底，

2024-05-11 22:04:29

数仓安全：数据脱敏技术深度解析

本文分享自華爲雲社區《GaussDB(DWS)安全管理之數據脫敏原理與使用方法介紹》，作者： VV一笑。 1. 前言適用版本：8.2.0及以上版本 GaussDB (DWS)產品數據脫敏功能，是數據庫產品內化和夯實數據安全能力的重要

2024-05-10 23:30:54

以全要素数据资产连接为核心的数据治理与运营

“數據中臺新範式”雲端峯會，深入解析湖倉一體、批流一體、治理與運營“三位一體”的數據中臺新範式特徵，普元信息大數據首席顧問李書超在峯會發表演講《以全要素數據資產連接爲核心的數據治理與運營》。以下爲演講提綱及完整視頻，添加元寶微信，還可

2024-05-09 13:12:55

【开启报名】同学看过来，Apache DolphinScheduler开源之夏课题任务正式发布！

如果你還擁有着一張有效的“學生證”，在這個充滿機遇的夏天，我們誠邀你加入一個充滿挑戰和機遇的開源冒險——開源之夏。這不僅是一個簡單的編程開發活動，假如你成功參加並結項之後，還能獲得中科院軟件所官方頒發的證書和獎金，簡直太有趣啦！ Apa

2024-05-09 11:55:30

爱奇艺数据湖实战 - 实时湖仓一体化

01 概述數據是洞察用戶、市場、運營決策的基礎資料，在愛奇藝被廣泛應用在推薦、廣告、用戶增長、營銷等場景中。愛奇藝大數據業務之前採用 Lambda 架構，滿足海量

愛奇藝技術產品團隊

2024-05-09 01:18:23

企业IT架构治理之道| 京东云技术团队

一、什麼是架構和治理 1.1 架構的起源開篇還是要說說大家理解的架構，何爲架構，架構跟我們的工作和生活有什麼關係。英文Architecture本源來自於拉丁語，最早起源於建築領域，建築是文明社會一個重要的標誌，同時也是人類社會最早形

2024-05-07 23:17:13

京东科技数字化营销能力的演进与最佳实践| 京东云技术团队

1.導讀在當今數字化時代，全球互聯網用戶已超過50億人，中國的互聯網用戶數量更是達到10.5億，這爲企業提供了巨大的市場機遇和挑戰。根據市場研究公司的最新報告，全球數字營銷費用支出預計將在未來五年內進一步大幅增加，這表明數字化營銷已成爲

2024-05-07 23:17:11

24小時熱門文章

最新文章

最新評論文章