論文 | 翻譯 ——A Novel K-medoids clustering recommendation algorithm……(2019:協同過濾RS)

目錄 <SCI 2>

0.專有詞彙

0.Abstract

1.Introduction

2.Literature overview

2.1.Similarity measure

2.2.Clustering technique

3.Research framework

3.1.Item similarity based on KL divergence

3.2.A novel K-medoids clustering algorithm based on probability distribution

3.2.1.K cluster centers selection algorithm based on KL distance

3.2.2.Item clustering algorithm

3.3.Top-n recommendation

3.3.1.Selection of nearest neighbor set

3.3.2.Online top-n recommendation

4.The experiments

4.1.Experimental dataset

4.2.Evaluation indicator

4.3.Experimental result and analysis

4.3.1.ML-Latest-Small dataset

4.3.2.Yahoo Music dataset

 4.4.Kolmogorov–Smirnov test

4.5.Comparison analysis

5.Conclusion and further work


0.專有詞彙

probalility distribution:概率分佈                 Kullback–Leibler (KL) divergence:KL散度

asymmetric relationship :非對稱關係         geometric distance:幾何關係

mean squared difference:均方差                heuristic:啓發式的

Bhattacharyya coefficient:巴氏係數           empirical cumulative distributions:經驗累積分佈

treatment group : 實驗組                              control group:對照組

0.Abstract

1.Introduction

【論述過程】

①研究背景:信息過載 → ②解決辦法:信息過濾(推薦系統) → ③ 聚類推薦算法運作過程和優點論述 → ④確定文章研究框架:聚類推薦算法 → ⑤前人研究表明:距離計算公式重要性程度高 → ⑥提出問題:現有距離計算公式在稀疏矩陣上表現不好 → ⑦確定文章研究方向

【聚類推薦的運作過程】

①聚類中心選擇算法確定聚類中心

②計算各對象到聚類中心的相似度,並劃分,最終確定最近鄰用戶

③預測未知評分,生成推薦列表

【研究創新點】

①傳統聚類推薦算法相似度(距離)計算公式僅考慮共有評分值:KL散度(距離)計算方法

②傳統聚類推薦算法相似度(距離)計算公式對重疊對象的劃分敏感度較低:KL散度(距離)的最大貢獻度

③傳統聚類推薦算法對象間相似度計算是對稱的,含有不同評分數量的對象影響應不同:算法強調對象間非對稱關係

2.Literature overview

【論述過程】

①定義CF模型空間 → ② 指出評分矩陣稀疏問題 → ③相似度計算方法 → ④聚類技術

2.1.Similarity measure

【論述過程】

①傳統相似度計算方法 → ②新背景下存在問題:數據稀疏、冷啓動和覆蓋範圍有限 →③提出新相似度測量方法 →④引出文章研究內容:KL散度的優化

2.2.Clustering technique

【論述過程】

①從聚類算法分類引出K-means →②K-means主要問題:對離羣點和噪聲敏感 →③引出k-means改進算法K-medoids →④K-mediods算法存在問題:幾何距離很難對重疊對象進行分類 →⑤引出文章研究內容:以K-mediods爲基礎尋找新的距離計算方法

3.Research framework

【論述過程】

①給出新聚類推薦算法的框架並粗略解釋框架流程

②KL散度(距離/相似度)公式原理說明

③商品聚類算法說明

④Top-N推薦

【框架流程】

①首先使用基於KL散度公式來計算項目之間的相似度

②基於KL散度中心選擇算法確定k個聚類中心,並且相似項被聚類到同一類中

③找到類中目標項的最近鄰,以計算活動用戶對未分級項的預測等級,按預測分值的大小生成推薦列表

3.1.Item similarity based on KL divergence

【論述過程】

①KL散度(距離)定義(item i, item j)

②公式問題:儘管充分利用了評分信息(評價過該商品的用戶數量),但忽略了商品評分的數量

 ③添加調節因子λ → ④改進KL散度(距離/相似度) → ⑤KL散度(距離/相似度)的其他性質:非負性 / 非對稱性 

  • 非對稱性解釋:D'(i)≠D'(j),商品i的最近鄰爲j,但j的最近鄰不一定爲i

3.2.A novel K-medoids clustering algorithm based on probability distribution

【論述過程】

①目的:提升K-medoids聚類算法的效率和聚類結果,基於“改進的KL散度(距離/相似度)”對其進行改進 → KL-KM

②KL-KM算法步驟:1)找出k個聚類中心        →  基於KL散度的聚類中心選擇算法

                               2)迭代生成聚類結果      →  商品聚類算法

3.2.1.K cluster centers selection algorithm based on KL distance

【基於KL散度的聚類中心選擇算法的步驟】 共k個聚類中心

①依據“KL散度(距離/相似度)和”確定第一個聚類中心C1

 ②依據公式(4)迭代確定剩餘k-1個聚類中心

③算法實現:

 

3.2.2.Item clustering algorithm

分別計算商品j∈N\{C}到各聚類中心的KL散度(距離/相似度)值,並將其劃分到最小散度值對應的聚類中。

3.3.Top-n recommendation

【論述過程】

①最近鄰域的選擇

②在線Top-n推薦

3.3.1.Selection of nearest neighbor set

【鄰域選擇規則】

分別計算待預測評分的商品i所在簇Ci中其他商品到該商品的KL散度,並將計算結果升序排列,選取前n個作爲商品i的鄰域

3.3.2.Online top-n recommendation

【論述過程】

藉助待預測評分商品的鄰域計算評分,並按照評分高低進行推薦

4.The experiments

【論述過程】

①實驗數據說明

②評價指標介紹

③實驗結果及分析(分塊實驗對比)

④Kolmogorov–Smirnov檢驗

⑤比較分析(總體實驗對比)

4.1.Experimental dataset

MovieLens 和 Yahoo Music

4.2.Evaluation indicator

評價指標分爲兩類:預測準確性+推薦準確性

①預測準確性:平均絕對誤差(MAE)和均方根誤差(RMSE)

②推薦準確性:精度(Precision)、召回率(Recall)和F1係數(F1-value)

4.3.Experimental result and analysis

【論述過程】

①說明聚類數k對推薦準確性和算法表現影響很大 → ②指明評價指標:Section 4.2 → ③指明對照算法:Pearson correlation based CF、new heuristic similarity model、ombining Jaccard and MSD、Bhattacharyya Coefficient based CF。

4.3.1.ML-Latest-Small dataset

【論述過程】

①聚類數k對結果的影響(圖三)

②最近鄰域大小對結果的影響(圖四)

 

 

4.3.2.Yahoo Music dataset

論述過程同4.3.1,只不過實驗數據集不同

 

 

 4.4.Kolmogorov–Smirnov test

Kolmogorov-Smirnov檢驗(KS檢驗)是一種一維概率分佈均勻性的非參數檢驗;它可以用來比較一個樣本與一個參考概率分佈,或評價兩個樣本。雙樣本KS檢驗是比較兩個樣本最有用的方法之一,因爲它對兩個樣本的經驗累積分佈的位置和形狀的差異都很敏感。(KS檢驗原理

【雙樣本KS測試過程】

①每個用戶的預測評分作爲實驗組,真實評分作爲對照組

②組中的每對評分在顯著性水平α=0.05下進行KS檢驗

③最後,使用累積測試值q作爲命中數來統計KS測試的結果。

4.5.Comparison analysis

【論述過程】(總體實驗對比)

①對照算法選擇:分塊對照實驗算法+2.2節綜述中聚類算法

②實驗數據集:ML-100k

③實驗結果分析

5.Conclusion and further work

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章