Mahout中相似度計算方法介紹

原創

2020-02-27 20:21

在現實中廣泛使用的推薦系統一般都是基於協同過濾算法的，這類算法通常都需要計算用戶與用戶或者項目與項目之間的相似度，對於數據量以及數據類型不同的數據源，需要不同的相似度計算方法來提高推薦性能，在mahout提供了大量用於計算相似度的組件，這些組件分別實現了不同的相似度計算方法。下圖用於實現相似度計算的組件之間的關係：

圖1、項目相似度計算組件

圖2、用戶相似度計算組件

下面就幾個重點相似度計算方法做介紹：

皮爾森相關度

類名：PearsonCorrelationSimilarity

原理：用來反映兩個變量線性相關程度的統計量

範圍：[-1,1]，絕對值越大，說明相關性越強，負相關對於推薦的意義小。

說明：1、不考慮重疊的數量；2、如果只有一項重疊，無法計算相似性（計算過程被除數有n-1）；3、如果重疊的值都相等，也無法計算相似性（標準差爲0，做除數）。

該相似度並不是最好的選擇，也不是最壞的選擇，只是因爲其容易理解，在早期研究中經常被提起。使用Pearson線性相關係數必須假設數據是成對地從正態分佈中取得的，並且數據至少在邏輯範疇內必須是等間距的數據。Mahout中，爲皮爾森相關計算提供了一個擴展，通過增加一個枚舉類型（Weighting）的參數來使得重疊數也成爲計算相似度的影響因子。

歐式距離相似度

類名：EuclideanDistanceSimilarity

原理：利用歐式距離d定義的相似度s，s=1 / (1+d)。

範圍：[0,1]，值越大，說明d越小，也就是距離越近，則相似度越大。

說明：同皮爾森相似度一樣，該相似度也沒有考慮重疊數對結果的影響，同樣地，Mahout通過增加一個枚舉類型（Weighting）的參數來使得重疊數也成爲計算相似度的影響因子。

餘弦相似度

類名：PearsonCorrelationSimilarity和UncenteredCosineSimilarity

原理：多維空間兩點與所設定的點形成夾角的餘弦值。

範圍：[-1,1]，值越大，說明夾角越大，兩點相距就越遠，相似度就越小。

說明：在數學表達中，如果對兩個項的屬性進行了數據中心化，計算出來的餘弦相似度和皮爾森相似度是一樣的，在mahout中，實現了數據中心化的過程，所以皮爾森相似度值也是數據中心化後的餘弦相似度。另外在新版本中，Mahout提供了UncenteredCosineSimilarity類作爲計算非中心化數據的餘弦相似度。

Spearman秩相關係數

類名：SpearmanCorrelationSimilarity

原理：Spearman秩相關係數通常被認爲是排列後的變量之間的Pearson線性相關係數。

範圍：{-1.0,1.0}，當一致時爲1.0，不一致時爲-1.0。

說明：計算非常慢，有大量排序。針對推薦系統中的數據集來講，用Spearman秩相關係數作爲相似度量是不合適的。

曼哈頓距離

類名：CityBlockSimilarity

原理：曼哈頓距離的實現，同歐式距離相似，都是用於多維數據空間距離的測度

範圍：[0,1]，同歐式距離一致，值越小，說明距離值越大，相似度越大。

說明：比歐式距離計算量少，性能相對高。

Tanimoto係數

類名：TanimotoCoefficientSimilarity

原理：又名廣義Jaccard係數，是對Jaccard係數的擴展，等式爲

範圍：[0,1]，完全重疊時爲1，無重疊項時爲0，越接近1說明越相似。

說明：處理無打分的偏好數據。

對數似然相似度

類名：LogLikelihoodSimilarity

原理：重疊的個數，不重疊的個數，都沒有的個數

範圍：具體可去百度文庫中查找論文《Accurate Methods for the Statistics of Surprise and Coincidence》

說明：處理無打分的偏好數據，比Tanimoto係數的計算方法更爲智能。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Mahout中相似度計算方法介紹

皮爾森相關度

歐式距離相似度

餘弦相似度

Spearman秩相關係數

曼哈頓距離

Tanimoto係數

對數似然相似度

MySQL 核心模塊揭祕 | 18 期 | 鎖在內存里長什麼樣*

使用perf工具生成火焰圖

HttpSecurity 是如何組裝過濾器鏈的

數說海南——近6年海南各市縣人口簡單看

長序列中Transformers的高級注意力機制總結

大齡程序員思考

響應式界面控件DevExtreme * 更強的數據分析和可視化功能

MySQL統計函數記錄——GROUP_CONCAT()函數

數據挖掘的標準流程

MySQL統計函數記錄——數值函數

R入門25招

Mahout中相似度計算方法介紹

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結