推荐系统 - 基于用户的协同过滤推荐 - 入门

原創

2020-06-03 12:48

原文：https://github.com/litaotao/guidetodatamining/blob/master/chapter-2.md

定义

协同过滤，这个方法是利用他人的喜好来进行推荐，也就是说，是大家一起产生的推荐。他的工作原理是这样的：如果要推荐一本书给你，我会在网站上查找一个和你类似的用户，然后将他喜欢的书籍推荐给你。

如何找到相似的用户？

曼哈顿距离

不同最简单的距离计算方式是曼哈顿距离。可以在物品评分里用。在二维模型中，每个人都可以用(x, y)的点来表示，这里我用下标来表示不同的人，(x1, y1)表示艾米对两个作品的评分，(x2, y2)表示那位神秘的X先生，那么他们之间的曼哈顿距离就是：

也就是x之差的绝对值加上y之差的绝对值
曼哈顿距离的优点之一是计算速度快，对于Facebook这样需要计算百万用户之间的相似度时就非常有利。
欧几里得距离

勾股定理

也许你还隐约记得勾股定理。另一种计算距离的方式就是看两点之间的直线距离：c平方=a平方+b平方

欧几里得距离，可以在物品评分里用。公式是：
闵可夫斯基距离
我们可以将曼哈顿距离和欧几里得距离归纳成一个公式，这个公式称为闵可夫斯基距离：
其中：r = 1 该公式即曼哈顿距离，r = 2 该公式即欧几里得距离，r = ∞ 极大距离
余弦相似度

它在文本挖掘中应用得较多，每个用户播放歌曲的次数也可以。

余弦相似度的计算中会略过这些非零值。它的计算公式是：

其中，“·”号表示数量积。“||x||”表示向量x的模，计算公式是：

问题

相似算法问题1 - 数据稀疏

iTunes上有1500万首音乐，而我只听过4000首。所以说单个用户的数据是稀疏的，因为非零值较总体要少得多。当我们用1500万首歌曲来比较两个用户时，很有可能他们之间没有任何交集，这样一来就无从计算他们之间的距离了。曼哈顿距离和欧几里得距离在数据完整的情况下效果最好。如何处理缺失数据，这在研究领域仍是一个活跃的话题。本书的后续内容会进行一些讨论，这里先不展开。可以看谁与谁的距离最近，从而推荐最相似的用户高分的东西给他。

相似算法问题2 - 打分标准非常不同

如何比较这些用户呢？比如Hailey的4分相当于Jordan的4分还是5分呢？我觉得更接近5分。这样一来就会影响到推荐系统的准确性了。

左：我非常喜欢Broken Bells乐队，所以我给他们打4分！
右：Broken Bells乐队还可以，我打4分。

问题2解决方法之一是使用皮尔逊相关系数，简单来说就是看两个人的评分趋势，如果一致就是相似。具体解析：

https://github.com/litaotao/guidetodatamining/blob/master/chapter-2.md#%E7%9A%AE%E5%B0%94%E9%80%8A%E7%9B%B8%E5%85%B3%E7%B3%BB%E6%95%B0

总结

需要使用K最邻近算法结合相似度算法来做推荐。

应该使用哪种相似度？

如果数据存在“分数膨胀”问题，就使用皮尔逊相关系数。
如果数据比较“密集”，变量之间基本都存在公有值，且这些距离数据是非常重要的，那就使用欧几里得或曼哈顿距离。
如果数据是稀疏的，则使用余弦相似度。

代码

https://github.com/litaotao/guidetodatamining/blob/master/chapter-2.md#python%E6%8E%A8%E8%8D%90%E6%A8%A1%E5%9D%97

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

推荐系统 - 基于用户的协同过滤推荐 - 入门

定义

如何找到相似的用户？

曼哈顿距离

欧几里得距离

余弦相似度

问题

相似算法问题1 - 数据稀疏

相似算法问题2 - 打分标准非常不同

推荐算法问题1 - 特殊偏好

总结

应该使用哪种相似度？

代码

容器中nginx无法使用同一个网络下的容器域名

Python: SunMoonTimeCalculator

NETCore中实现一个轻量无负担的极简任务调度ScheduleTask

docker使用特定的网络

使用c#强大的表达式树实现对象的深克隆之解决循环引用的问题

「Pygors跨平台GUI」2：安装MinGW-w64、MSYS2还是WSL2

「Pygors跨平台GUI」1：Pygors跨平台GUI应用研究

nodejs学习07——API

避免DbContext同时在多个线程调用

GPT-4o 引领人机交互新风向，向量数据库赛道沸腾了

Spark安裝，使用docker

分佈式理論CAP - C（一致性）A（可用性）P（分區容忍性）不可兼得

Spark入門知識（application, job, stage, task）

技術文章結構

推薦系統 - 基於用戶的協同過濾推薦 - 入門

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結