推薦算法相似度計算

推薦系統中相似度計算可以說是基礎中的基礎了,因爲基本所有的推薦算法都是在計算相似度,用戶相似度或者物品相似度,這裏羅列一下各種相似度計算方法和適用點

餘弦相似度

 

 

這個基本上是最常用的,最初用在計算文本相似度效果很好,一般像tf-idf一下然後計算,推薦中在協同過濾以及很多算法中都比其他相似度效果理想。 
由於餘弦相似度表示方向上的差異,對距離不敏感,所以有時候也關心距離上的差異會先對每個值都減去一個均值,這樣稱爲調整餘弦相似度

歐式距離

基本上就是兩個點的空間距離,下面這個圖就能很明顯的說明他和餘弦相似度區別,歐式距離更多考慮的是空間中兩條直線的距離,而餘弦相似度關心的是空間夾角。所以

歐氏距離能夠體現個體數值特徵的絕對差異,所以更多的用於需要從維度的數值大小中體現差異的分析,如使用用戶行爲指標分析用戶價值的相似度或差異。

餘弦距離更多的是從方向上區分差異,而對絕對的數值不敏感,更多的用於使用用戶對內容評分來區分興趣的相似度和差異,同時修正了用戶間可能存在的度量標準不統一的問題(因爲餘弦距離對絕對數值不敏感)。

 

皮爾遜相關性(PC)

 


上面是總體相關係數,常用希臘小寫字母 ρ (rho) 作爲代表符號。估算樣本的協方差和標準差,可得到樣本相關係數(樣本皮爾遜係數),常用英文小寫字母 r 代表: 

 

其實這個就是前面講的調整的餘弦相似度,因爲在推薦系統中均值分爲用戶的均值和物品的均值,這裏相當於是物品的均值。這個也是比較常用的。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章