论文 | 翻译 ——Resolving data sparsity and cold start problem in collaborative filtering ……(2019:协同过滤RS)

目录 <SCI 2>

0.专有词汇

0.Abstract

1.Introduction

2.Related works

2.1 Baseline estimation

2.2 Linked open data enabled recommendation system

3. Proposed approach: recommender system with Linked Open Data

3.1 LOD for cold start problem in CF (RS-LOD)

3.2 Enhanced matrix factorization model for data saprsity

3.3.Linked open data (LOD) similarity measure

3.4.Matrix factorization with hidden feedback and LOD similarity measure (MF-LOD)

4. Experimental analysis and results

4.1.Data set

4.2.Evaluation metrics and methods

4.3.Experimental results

5.Conclusion

6.论文链接


0.专有词汇

data sparsity: 数据稀疏              cold start : 冷启动

matrix factorization : 矩阵分解  knowledge base : 知识库

accuracy : 准确性                       user profile : 用户模型(画像)

rating matrix : 评分矩阵             resource description framework(RDF) : 资源描述框架

key features : 关键特征              latent factors : 潜在因子

semantic features : 语义特征    distinctive features : 区别性特征

ontological : 本体论的               heterogeneous nature : 异质性

representation, interoperability, and expressivity : 表示性、互操作性、可扩展性

real-time : 实时                          singular value decomposition (SVD) : 奇异值分解

Linked data semantic distance measurement :链接数据语义距离测量

incoming/outgoing links:    传入/传出链接

new entity : 新实体(新用户/新商品)regulator : 调度器                 

query constructor : 查询构造器

SPARQL query : SPARQL查询(数据库查询命令)    information miner : 信息矿工

implicit feedback data : 隐式反馈数据

0.Abstract

1.Introduction

【论述过程】

推荐算法分类 → 协同过滤算法 → 数据稀疏/冷启动 → LOD(Linked open data : 链接开源数据) → 解释了一下相关概念:RDF\DBpedia(知识库)\矩阵分解综述 → 本文贡献 → 后续文章内容安排

【研究创新点】

①将链接开源数据(LOD)与近邻协同过滤推荐系统融合

②将链接开源数据(LOD)与矩阵分解相融合

③基于LOD的推荐系统框架是通用的

④Netflix和Movielens数据集上实验结果较优

【文章观点存在问题】

①推荐系统分类不妥

②知识库会涉及用户大量个人隐私数据(人口统计信息)

③评分值本身存在失真问题,文章并没有进行处理

2.Related works

2.1 Baseline estimation

【论述过程】

介绍了一些近邻协同过滤推荐算法的基本操作:①均值预测填充 → ②用户/商品偏执项预测填充(最小二乘优化) → ③奇异值分解(SVD) → 提出问题

【引出文章研究问题】

基于现有SVD的推荐系统并未使用语义信息和交互数据进行未知评分的预测和冷启动问题的处理

2.2 Linked open data enabled recommendation system

介绍了推荐系统与链接开源数据有关的研究,并引出文章研究问题:①链接数据语义距离度量 → ②Resim方法 → ③分块信息内容语义相似度(PICSS) → ④Legato框架 →⑤语言链接开放数据(LLOD) → ⑥SemiLD框架 → ⑦SocialLink → ⑧XOSM框架 → ⑨BROAD-RSI → 引出文章研究问题

【引出文章研究问题】

现存所有方法并未充分利用LOD中的语义信息来解决数据稀疏和冷启动问题

3. Proposed approach: recommender system with Linked Open Data

提出了一种新的基于开放链接数据的矩阵分解(MF-LOD)系统,该系统改进了基于隐式反馈数据和基于链接开放数据相似性度量的矩阵分解模型,解决了协同过滤中的数据稀疏问题。另一方面,开发了基于LOD模型的推荐系统(RS-LOD),该系统利用LOD云中项目或用户的语义特征来处理推荐中的冷启动问题

3.1 LOD for cold start problem in CF (RS-LOD)

【RS-LOD推荐系统框架运作过程】

①新实体(新用户/新商品:new entity) → ②推荐系统接口(RS interface) → ③调度器(regulator) → ④查询构造器(query constructor) →⑤SPARQL查询(数据库查询语句) → ⑥LOD接口(LOD interface) → ⑦调度器(regulator) → ⑧信息矿工(information miner) → ⑨相似度计算(similarity calculation) → ⑩推荐列表(recommendation list)

3.2 Enhanced matrix factorization model for data saprsity

【enhanced-SVD算法的运作过程】

在SVD++算法(SVD 中融入用户对物品的隐式行为)基础上添加了物品对用户的隐式行为→表达式还不完全)

提示

我们可以认为 评分=显式兴趣 + 隐式兴趣 + 偏见。那么隐式兴趣如何加入到模型中呢?首先,隐式兴趣对应的向量也是 k 维,它由用户有过评分的物品生成,因为,评分的行为从侧面反映了用户的喜好,可以将这样的反映通过隐式参数的形式体现在模型中。

3.3.Linked open data (LOD) similarity measure

文章认为:现存的近邻协同过滤推荐系统当中的相似度计算方法仅仅依赖用户-商品评分矩阵,由于该矩阵极其稀疏,所以性能表现欠佳。故,提出了一种语义相似度测量方法

①Pearson相关系数 → ②Pearson相关系数缺陷(未考虑重叠记录项的数量对相似度的影响) → ③添加最低重叠记录项惩罚阙值 → ④仍存在“未考虑商品语义特征之间的相关性” → ⑤将Partitioned Information Content Semantic Similarity(PICSS)相似度进行改进:计算相似度的商品特征改为PCA提取特征

3.4.Matrix factorization with hidden feedback and LOD similarity measure (MF-LOD)

本部分是在3.2和3.3的基础上找到机器学习优化模型,并通过随机梯度下降优化算法进行求解

 4. Experimental analysis and results

4.1.Data set

①两个数据集:Movielens\Netflix → ②给出稀疏度定义公式 → ③DBpedi知识库中PCA提取电影特征:“subject”\“director”\“genre”\“stars” →④30%训练集,70%预测集 →⑤5次重复实验(随机划分训练集和测试集)

【文章指明问题】

①在某些情况下,MovieLens和Netflix中存在的商品在DBpedia中没有相应的条目

②并非MovieLens和Netflix中的个商品都与DBpedia有如此绝对的特征映射(PCA提取的特征)

4.2.Evaluation metrics and methods

文章验证“基于链接开放数据的矩阵分解方法”有效性的对比算法有:

①基于偏见的SVD

②SVD++

③RS+ [PICSS+SVD]

④LOD相似性度量方法+[现有的其他度量方法]

⑤评价指标:精密度、召回率、F1分数、绝对平均误差和均方根误差

4.3.Experimental results

<1>Comparing various recommender methods

比较Open Linked Data based Matrix Factorization和 SVD / biased SVD / SVD++在两个数据集上的性能

<2>Effect of latent factors, neighbor size, and penalty threshold

确定“潜在因子↓”、“邻域大小↑”和“惩罚因子(100)”等参数的最优值

<3>Evaluation result for cold start issue

通过与“CF-U”、“CF-I”对比,体现“RS-LOD”框架的有效性。并给出“新商品”或“新用户”的相似度计算公式,即3.3节中给出的sim(p,q)的一部分

<4>Issue on feature sparsity in the knowledge base

本部分验证知识库中的特征稀疏性对文章所提推荐系统的影响(同样分两个数据集进行验证)。比较的系统为:RS-PICSS和MF-LOD,实验结果表明:MF-LOD更优,因为项目相似性度量是基于LOD知识库的(PCA选择后的特征)

<5>Comparison of various similarity measures

验证文章所提LOD-sim(p,q)相似度计算方法的有效性,比较算法有:Pearson、Jaccard、cosine、Improvised PCC、PICSS、LOD-sim

 

5.Conclusion

6.论文链接

链接:https://pan.baidu.com/s/1hnilZxbzRrs6RE3WIXWjcQ 
提取码:iecd 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章