論文筆記:A Novel Bayesian Similarity Measure for Recommender Systems

一、基本信息

論文題目:《A Novel Bayesian Similarity Measure for Recommender Systems》

發表時間:ICJAI 2013

論文作者及單位:

論文地址:https://dl.acm.org/citation.cfm?id=2540506

 

二、摘要

        協同過濾(collaborative filtering)是一種廣泛使用的以用戶爲中心的推薦技術,它通過彙總來自類似用戶的評級來預測項目的評級。用戶相似度通常通過餘弦相似度或皮爾遜相關係數來計算。然而,它們都只考慮評級向量的方向,並且都有一系列的缺點。爲了解決這些問題,我們提出了一種新的基於Dirichlet分佈的貝葉斯相似性度量,同時考慮了評級向量的方向和長度。此外,我們的principled method由於偶然性降低了相關性。對六個實際數據集的實驗結果表明,該方法具有較高的精度。

 

三、論文主要內容與工作

1、原有的用來測量相似度的VSS和PCC方法存在四點不足:

  • 平值問題:如果所有評級值都是flat,例如一個用戶給分爲(1,1,1),另一個給分爲(5,5,5)則當相關公式分母變爲0時,pcc不可計算,cos始終爲1,而不管評分值如何;
  • 相反的值問題:如果兩個用戶在共同評分的項目上指定完全相反的評級,則pcc始終爲−1;
  • 單值問題:如果兩個用戶只有一個共同的評分項目,則PCC不可計算,無論評分值如何,cos都會得出1;
  • 交叉值問題:如果兩個用戶只有兩個共同的評分項目,則向量交叉時,PCC始終爲−1,例如(1,3)和(2,1);否則,如果可計算,PCC爲1。

2、爲了解決上述問題並提出一種更好的相似性度量方法,我們設計了一種新的貝葉斯方法,同時考慮了評級向量的方向和長度。貝葉斯方法的一個吸引人的優點是,人們可以用與大樣本相同的方式從小樣本中推斷(O'Hagan,2004年)。當評分向量的長度較短時,這一點尤其有用。我們應用Dirichlet分佈來適應同一項目(評級對)兩個評級之間的多級距離。相似度定義爲用戶距離的反標準化,該標準化是由評級距離的加權平均值和與該距離內的評級對數量相對應的重要權重計算得出的。我們進一步排除了由於少量共評項目(稱爲機會相關性)而導致用戶“相似”的情況發生的可能性。基於六個實際數據集的實驗結果表明,該方法具有較高的精度。

3、對已有的評估相似度方法做出了回顧,並指出了它們各自的不足。

4、本文所提出的貝葉斯相似性度量與PCC和COS有着明顯的區別,旨在解決這些傳統相似性度量的問題。它同時考慮了評級向量的方向(評級距離)和長度(評級數量)。具體來說,評級距離是根據觀察到的證據數量,由Dirichlet分佈建模的,每個證據是一對評級(從兩個向量)對一個通常評級的項目。然後根據用戶的重要性權重,將用戶的總體相似性建模爲評級距離的加權平均值,對應於距離中新證據的數量。此外,我們考慮的場景是,由於評級向量的長度很小,用戶恰好“相似”,稱爲機會相關性。因此,通過(1)Dirichlet分佈的建模,以及(2)我們的方法中的機會相關性,考慮了評級向量的長度。

5、隨後對本文提出的方法的數學基礎進行了詳細介紹,並進行了實驗驗證。

 

四、總結

        本文提出了一種新的基於Dirichlet分佈的推薦系統貝葉斯相似性度量方法,該方法考慮了評價向量的方向和長度。此外,爲了準確地測量用戶的相關性,剔除了因偶然性和用戶偏差引起的相關性。通過典型的例子,我們證明了貝葉斯測度可以解決傳統相似測度(即PCC和COS)的問題。更一般地說,我們通過實證分析了這些措施的發展趨勢,並得出結論,我們的方法有望產生更現實和可辨別的用戶相似性。基於六個實際數據集的實驗結果進一步證明了該方法在提高推薦性能方面的魯棒性。
我們的方法只依賴數字等級來模擬用戶相關性,因此它可以應用於許多其他領域,如信息檢索。我們計劃整合更多關於用戶評級的信息,例如評級發佈的時間,以考慮用戶興趣的動態變化【Li等人,2011年】,並在我們的方法中應用數值δ和c的參數學習。

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章