協同過濾(英語:Collaborative Filtering,簡稱CF),簡單來說是利用某興趣相投、擁有共同經驗之羣體的喜好來推薦用戶感興趣的信息,個人透過合作的機制給予信息相當程度的迴應(如評分)並記錄下來以達到過濾的目的進而幫助別人篩選信息,迴應不一定侷限於特別感興趣的,特別不感興趣信息的紀錄也相當重要。——維基百科
基於用戶的協同過濾算法(簡稱UserCF)
在一個在線個性化推薦系統中,當一個用戶A需要個性化推薦時,可以先找到和他有相似興趣的其他用戶,然後把那些用戶喜歡的、而用戶A沒有聽說過的物品推薦給A。這種方法稱爲基於用戶的協同過濾算法。
舉個例子:
用戶/物品 | 物品A | 物品B | 物品C | 物品D |
---|---|---|---|---|
用戶A | √ | √ | 推薦給用戶A | |
用戶B | √ | |||
用戶C | √ | √ | √ |
要實現基於用戶的協同過濾,需要的步驟:
- 收集用戶偏好
- 通過計算相似度找到與目標用戶相似的用戶
- 將相似用戶喜歡的、且目標用戶沒有聽說過的物品推薦給目標用戶
一、計算兩個用戶的興趣相似度
其中關鍵的一步就是計算兩個用戶的興趣相似度。
協同過濾算法主要利用行爲的相似度計算興趣的相似度。給定用戶 和用戶 ,令 表示用戶 曾經有過正反饋的物品集合,令 爲用戶 曾經有過正反饋的物品集合。則可以通過計算餘弦相似度簡單地計算 和 的興趣相似度:
例子:
如圖,、、、 爲用戶,、、、、 爲物品。
利用餘弦相似度公式計算他們之間的興趣相似度分別爲:
但事實上,很多用戶相互之間並沒有對同樣的物品產生過行爲,即 。
因此換一種思路,我們可以首先計算出 的用戶對 ,然後再對這種情況除以分母 。
爲此,可以首先建立 的倒排表。令稀疏矩陣 。因此,可以遍歷倒排表中每個物品對應的用戶列表,將用戶列表中的兩兩用戶對應的 同時加 ,最終就可以得到所有用戶之間不爲 的 。
代碼實現如下:
def UserSimilarity(train):
# 建立倒排表
item_users = dict()
for u, items in train.items():
for i in items.keys():
if i not in item_users:
item_users[i] = set()
item_users[i].add(u)
# 修改相似度矩陣
C = dict()
N = dict()
for i, users in item_users.items():
for u in users:
N[u] += 1
for V in users:
if u == v:
continue
C[u][v] += 1
# 計算相似度矩陣
W = dict()
for u, related_users in C.items():
for V, cuv in related_users.items():
W[u][v] = cuv / math.sqrt(N[u] * N[v])
return W
以上圖的用戶行爲解釋上述算法。首先,需要建立 的倒排表(如圖1)。然後建立一個 的用戶相似度矩陣 ,對於物品 ,將 和 加 ,對於物品 ,將 和 加 ,以此類推(如圖2)。掃描完所有物品後,我們可以得到最終的 矩陣。 此處 是餘弦相似度中的分子部分,將 除以分母即可得到最終的用戶興趣相似度(如圖3)。
二、進行推薦
得到用戶之間的興趣相似度後, 算法會給用戶推薦和他興趣最相似的 個用戶喜歡的物品。以下公式度量了 算法中用戶 對物品 的感興趣程度:
K是 算法的一個重要參數
其中, 包含和用戶 興趣最接近的 個用戶, 是對物品 有過行爲的用戶集合,
是用戶 和用戶 的興趣相似度, 代表用戶 對物品 的興趣,因爲使用的是單一行爲的隱反饋數據(否則使用評分等指標),所以所有的 。
評分可以經過歸一化處理
代碼如下:
def Recommend(user, train, W):
rank = dict()
interacted_items = train[user]
for v, wuv in sorted (W[u].items, key=itemgetter(1), reverse=True)[0:K]:
for i, rvi in train[v].items:
if i in interacted_items:
# 過濾互動過的項目
continue
rank[i] += wuv * rvi
return rank
利用上述 算法,可以給上述圖1、2、3的用戶 進行推薦。選取 ,用戶 對物品 、 沒有過行爲,因此可以把這兩個物品推薦給用戶 。相似用戶則是 、、,他們喜歡過並且 沒有喜歡過的物品有 、。根據 算法,用戶 對物品 、 的興趣是:
用戶相似度計算的改進:
兩個用戶對冷門物品採取過同樣的行爲比熱門物品更能說明他們興趣的相似度。因此,爲了防止熱門物品的影響,提出如下公式計算用戶的興趣相似度:
上述公式通過 懲罰了用戶 和用戶 共同興趣列表中熱門物品對他們相似度的影響。
基於上述用戶相似度公式的算法記爲 算法。
代碼如下:
def UserSimilarity(train):
# 建立倒排表
item_users = dict()
for u, items in train.items():
for i in items.keys():
if i not in item_users:
item_users[i] = set()
item_users[i].add(u)
# 統計相似度矩陣
C = dict()
N = dict()
for i, users in item_users.items():
for u in users:
N[u] += 1
for v in users:
if u == v:
continue
C[u][v] += 1 / math.1og(1 + len(users))
# 計算相似度矩陣
W = dict()
for u, related_users in C.items():
for v, cuv in related.users.items():
W[u][v] = cuv / math.sqrt(N[u] * N[v])
return W
算法存在的問題:
- 對於一個新用戶,很難找到相似用戶。
- 對於一個物品,所有相似用戶都在其上沒有多少行爲。
- 矩陣稀疏。
- 用戶量越來越大
- 人類善變
參考資料:《推薦系統實踐》