个性化智能推荐技术研究总结

文章转载自：http://blog.csdn.net/zolalad/article/details/16344183

个性化智能推荐技术研究总结

随着网络与信息技术的飞速发展，互联网为用户提供越来越多的信息和服务，用户在得到便利的同时也不得不面临大量的垃圾信息和无意义数据，即所谓的信息超载问题。面对海量的网络资源，个性化推荐系统是一种极具潜力的解决信息超载的服务技术，它利用用户的偏好信息自动的向用户推荐符合其兴趣特点的对象。这搜索引擎提供的“一对多”式的信息服务不同，个性化推荐系统输出的结果更符合用户需求，同时系统自动运行，用户参与度也更低，从而使得用户寻找信息的成本大大降低。

这些在线的推荐服务无需用户介入，具有较强的自学习能力和实时能力，有效地克服了信息超载的问题。

例如 Amazon，eBay，淘宝，豆瓣，当当网等，都在不同程度上采用了个性化推荐系统。在这些商务网站中，推荐系统能够根据用户的历史购买记录，以及浏览、检索和评论行为等，分析用户的兴趣并向其主动推荐商品，实现在线导购功能；高质量的推荐系统能够增强用户的购物体验，提高对网站的忠诚度。同时，电子商务推荐系统提供的个性化服务能够挖掘用户潜在兴趣，有效地提高商品的交叉销售能力，在竞争日趋激烈的环境下带来了显著的经济效益。

个性化推荐引擎和搜索引擎的区别是：个性化推荐引擎的本质是更符合人们使用习惯的信息发现，而搜索引擎的本质是用户简单的目标明确的数据检索！

个性化推荐技术的应用方式：
买过还买过：基于用户历史行为及偏好，推荐浏览当前商品的其它相似用户购买过该商品以后在一定时间内又购买的商品。可帮助用户快捷找到下一个可能感兴趣的商品，增加商家的复购率、客单价、动销比。
强力推荐：基于当前用户浏览类别和用户历史行为及偏好以根据相关产品销售量的排行推荐列表的形式推荐符合用户兴趣的产品。可知道帮助用户根据销售热度参考和与自己相似的用户在该类别的购买行为来激发用户的购买欲望，可帮助商家提高转化率和用户体验。
猜你喜欢：基于用户的历史行为以及偏好推荐符合用户兴趣和需求的商品。可帮助商家增加商品曝光率、提高转化率、访问深度及用户体验、减少首页跳出率。
经常一起购买：原理是分析购物车中经常出现的商品。可帮助用户快捷的找到下一个可能需要购买的商品，帮助商家的复购率、客单价、动销比。
看过最终购买：基于当前用户浏览类别和用户历史行为及偏好以根据相关产品销售量的排行推荐列表的形式推荐符合用户兴趣的产品。可知道用户选择最可能满足需求及刚兴趣的商品，增加商家的复购率、客单价、动销比。
近些年来，随着个性化信息服务成为互联网行业应用的热点，推荐系统在电子商务、新闻、电影、音乐、网页、社交网络等各种类型的web站点都取得了广泛的应用。

在这些个性化推荐技术中常见的关键技术有：特征提取，特征建模，特征降维技术，相似性度量方法，奇异值分解，聚类（k-均值），协同过滤算法等等。
智能推荐大都基于海量数据的计算和处理，然而我们发现在海量数据上高效的运行协同过滤算法以及其他推荐策略这样高复杂的算法是有很大的挑战的，在面对解决这个问题的过程中，大家提出了很多减少计算量的方法，而聚类无疑是其中最优的选择之一（即先对海量数据进行聚类计算，然后再运行协同过滤算法，这样可以大幅度降低计算规模）。聚类 (Clustering) 是一个数据挖掘的经典问题，它的目的是将数据分为多个簇 (Cluster)，在同一个簇中的对象之间有较高的相似度，而不同簇的对象差别较大。聚类被广泛的应用于数据处理和统计分析领域。聚类分析还可以作为其他算法的预处理步骤，简化计算量，提高分析效率！

一、 个性化推荐技术：

在众多推荐技术中，研究最多的是基于内容的推荐和协同过滤推荐。

在这些个性化推荐技术中常见的关键属于有：特征提取，特征建模，特征降维技术，相似性度量方法，奇异值分解，聚类（k-均值），协同过滤算法等等。

1.1 基于关联规则的推荐（Association Rules）【啤酒与尿布的故事】

啤酒和尿布的购买有关系吗？答案是，跟尿布一起购买最多的商品就是啤酒。据沃尔玛的分析调查，美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布，而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。对于隐藏在啤酒和尿布这类表面上风马牛不相及的商品背后的关联，如果不通过数据挖掘的技术，是没有办法靠拍脑袋的办法想出来的。这就是关联规则挖掘中最经典的例子。

商品之间关联规则可以分为空间关联和时间关联两种，时间关联又可以分为周期关系和顺序关联两种。在一般研究中提到的关联规则，其实仅仅是空间关联，也就是在同一个时间（同一次购买）里，对消费者经常一起购买的商品进行分析，这也是所谓“购物篮分析”的主要支撑技术。

最常见的空间关联规则挖掘技术，是所谓的“支持-置信”分析。以消费者在超市购买商品为例，如果把每一个消费者的一次购买看作一个事件，考虑从商品X到商品Y的关联规则，支持度是指在所有事件中同时购买商品X和商品Y的比例，置信度则是在所有购买了商品X的事件中也购买商品Y的比例。如果支持度和置信度都超过了相应的阈值，则从X到Y的规则被认为是有效的。

基于关联规则的推荐，关联规则关注用户行为的关联模式，可以发现不同商品在销售过程中的相关性，从而增加商品的组合销售。常用的关联规则方法有 Apriori 算法以及基于Apriori算法改进的 FP-Growth算法等。关联规则技术在数据挖掘领域中主要用来处理关系型事物数据库，在电子商务领域被成功应用到购物篮数据中，可以发现不同商品在销售过程中的相关性，从而增加商品的组合销售能力。

关键词语：（最小）支持度，（最小）置信度，阈值，生成频繁项集（那些支持度大于最小支持度阈值的项集称之为频繁项集（frequent item set）），获得关联项集，推荐项。

关联规则常用的方法是 Apriori算法，其用于推荐的原理是：算法首先通过挖掘用户的历史纪录来产生聚集树，获得用户行为的频繁项集，然后定义推荐因子为关联规则的置信度乘以距离，最终通过推荐因子的大小确定推荐项。

关联规则推荐简单、高效，可以离线建模，因此能够保证推荐系统的实时性要求，同时，由于是通过挖掘用户的历史浏览记录来产生推荐，因此可以应用于不同的领域。但是该算法的也存在着较为明显的缺陷，例如如果关联规则的支持度和置信度阈值选取不合适，往往会在增加建模时间成本的同时还会降低推荐质量；新项目（New Items）由于缺乏历史记录而无法获得推荐；此外随着系统规模的进一步扩大，基于关联规则得到的结果往往过于复杂，影响了推荐的质量。这种方法通常被限制在容易分析内容的商品的推荐，而对于一些较难提取出内容的商品，如音乐CD、电影等就不能产生满意的推荐效果。

1.2 基于内容的推荐（Content-based）

基于内容的推荐是信息过滤技术（Information Filtering）的延续和发展，系统无须获取用户对项目的评价意见，而仅仅通过学习用户的对历史选择项目的信息，来进行新项目的推荐。同时，受限于信息获取技术的发展，基于内容的推荐系统也受到了很多的约束，例如在自动提取一些视频文件、图像、声音文件等多媒体信息的特征时，面临着较大的技术困难，从而也限制了相关领域的应用。此外基于内容的过滤技术只能向用户推荐与其历史兴趣内容属性相似的项目，缺乏对用户潜在兴趣的挖掘能力，在实际应用中存在一定的局限性。

由于基于内容的推荐算法的根本在于信息提取和信息过滤，属于文本处理的研究范畴（特征提取，降维处理，特征建模，相似性计算），理论上的研究也比较成熟，因此现有很多基于内容的推荐系统都是通过分析产品的文本信息进行推荐的。最常用方法就是信息过滤中TF-IDF算法，还有常用的相似性计算方法-余弦相似性计算，阿基米德相似性计算等。

总结来说，基于内容的协同过滤有如下优点：

1) 不需要考虑其它用户的兴趣爱好数据，从而也就不存在用户-项目评价矩阵稀疏的问题；

2) 能处理项目冷启动问题。当一个新项目加入到系统后，可以通过对项目特征的提取，通过匹配用户的历史选择信息来对特定用户产生推荐，同时推荐结果也能兼顾一些不是很流行的项目；

3) 由于推荐的结果是根据项目的特征进行选择的，因此可以解释为什么推荐这些项目。

4) 已有较为完善的理论体系，如关于文本处理和信息分类学习方面的技术已相当成熟。

其不足之处：

此外基于内容的过滤技术只能向用户推荐与其历史兴趣内容属性相似的项目，推荐的结果往往会造成过度特殊化(Over-specializationProblem)的问题，缺乏对用户潜在的挖掘能力；最后，当一个新用户进入到推荐系统时，由于在系统上没有任何历史记录，会导致无法正确且实时的做出有效的

1.3 协同过滤推荐（Collaborative Filtering）

协同过滤技术是目前推荐系统中最成功和应用最广泛的技术，在理论研究和实践中都取得了快速的发展，它根据用户的历史选择信息和相似性关系，收集与用户兴趣爱好相同的其他用户的评价信息来产生推荐。

协同过滤也称为社会过滤，它计算用户间偏好的相似性，在相似用户的基础上自动的为目标用户进行过滤和筛选，其基本思想为具有相同或相似的价值观、思想观、知识水平和兴趣偏好的用户，其对信息的需求也是相似的。因此相对于传统的推荐方法，协同过滤技术体现出的一个显著的优势是能够推荐一些难以进行内容分析的项目，比如信息质量、个人品味等抽象的资源对象。另外协同过滤技术能够有效的使用其他兴趣相似用户的评价信息，从而利用较少的用户反馈，加快了个性化学习的速度，同时利于发现用户的隐藏兴趣。从 1992 年该技术的思想首次被提出以来，协同过滤技术以其广阔的应用价值，受到了越来越多学者的关注，并成为一个重要的研究热点。

协同过滤技术是利用户间的兴趣偏好相似性来产生推荐，且推荐的过程是完全自动的，即推荐结果的产生是系统从用户的购买行为或浏览记录等隐式信息中得到的，无需用户通过填写调查表格等方式来明确自己的兴趣信息。

相对于其它的推荐技术，由于协同过滤不依赖于抽取推荐对象的特征信息来了解用户的兴趣，并能够发现用户的潜在兴趣，具备较高的个性化程度，因此协同过滤技术受到越来越多研究者的关注，并广泛应用于在电子商务推荐领域。

1.3.1与传统文本过滤相比，协同过滤有下列优点:

1. 能够过滤难以进行机器自动基于内容分析的信息。如艺术品、音乐;

2. 能够基于一些复杂的，难以表达的概念（信息质量、品位)进行过滤;

3. 推荐的新颖性。正因为如此，协同过滤在商业应用上也取得了不错的成绩。Amazon，CDNow，MovieFinder，都采用了协同过滤的技术来提高服务质量。

因此，协同过滤的基本出发点可以总结为：（1）用户是可以按兴趣分类；（2）用户对不同的信息评价包含了用户的兴趣信息；（3）用户对一个未知信息的评价将和其相似（兴趣）用户的评价相似。这三条构成了协同过滤系统的基础。

1.3.2传统系统规律算法的步骤如下所示：

(1)评分标示：

传统协同过滤推荐算法的输入数据是一个m× n的用户-项目评分矩阵

（2）紧邻选择：

协同过滤算法的推荐原理就是查找与目标用户相似的近邻用户，通过近邻用户的评价对目标用户产生推荐。近邻用户的选择方法如下：计算目标用户与推荐系统中其他所有用户的相似性，根据相似性排序从大到小依次选择前面的K个最相似的用户作为目标用户的近邻集合。

这其中，相似性度量方法的选择对于推荐精度有着至关重要的影响，常用的相似性度量方法:有欧几里得距离、皮尔逊相关（PearsonCorrelation Similarity）、余弦相似性（Cosine Similarity）、Tanimoto系数即修正的余弦相似性（Adjusted Cosine Similarity）等

（3）产生推荐

协同过滤算法一个基本的假设就是具有相似喜好的用户对于同一个项目会给出相似的评分。因此，目标用户的近邻集合生成后，就可以根据近邻集合中用户的评分，来预测目标用户对于未评分项目的评分。

1.3.3总结：

协同过滤技术在推荐系统中取得了广泛的应用和巨大的成功，但是随着互联网的发展和普及，用户人数和商品、网络资源的爆增，站点结构复杂度的增加，以及网络信息安全的不断升级，协同过滤推荐系统也面临着如下诸多问题和挑战：

1）数据稀疏

2）冷启动问题：冷启动问题包含新用户问题（new user problem）和新项目问题（new itemproblem）两种情况。新用户问题是指当一个新用户加入到推荐系统时，由于没有该用户的历史评分数据，因此无法根据评分信息对新用户进行推荐服务。新项目问题是指当一个全新的商品加入到推荐系统中后，由于没有用户对其进行过评价，则在系统运行的初期，它将很难获得推荐。新项目问题可以通过结合基于内容的推荐（项目的属性信息）等方法，来缓解冷启动问题。

3）可扩展性问题

4）鲁棒性问题：推荐系统能否识别此种情况，去除恶意用户及异常数据，提高推荐系统的可靠性，这也是目前推荐系统鲁棒性方面所需要重点关注的问题。

5）隐性喜好发现

1.3.4、常用协同过滤算法：

1 基于内存的协同过滤

1.1基于item的协同过滤(item-based CF):通过用户对不同item的评分来评测item之间的相似性，基于item之间的相似性做出推荐；

1.2基于user的协同过滤(user-based CF):通过不同用户对item的评分来评测用户之间的相似性，基于用户之间的相似性做出推荐；

2 基于模型的协同过滤

3 混合式协同过滤

1.4 混合推荐技术（Hybrid Recommendation）

鉴于各种推荐方法都有优缺点和技术特点，且具有将强的互补性，因此在实际推荐系统中，通常采用组合推荐（Hybrid Recommendation）的方式来对用户做出推荐。目前的组合推荐方法中，较为流行的是将协同过滤和基于内容推荐相结合，最简单的做法就是用协同过滤推荐方法和基于内容的方法分别得到一个推荐结果，最终结果由这两者然后按照一定的原则组合产生。

1.5 各推荐技术应用

个性化智能推荐技术研究总结

java連接數據庫的一個問題

Mahout文本聚類實例

mahout測試naive Bayes算法

個性化智能推薦技術研究總結

Hadoop上控制Map的數量

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結