NMF算法簡介及python實現(gradient descent)

原創

2020-06-16 16:34

原文鏈接：http://www.albertauyeung.com/mf.php

基本原理

NMF，非負矩陣分解，它的目標很明確，就是將大矩陣分解成兩個小矩陣，使得這兩個小矩陣相乘後能夠還原到大矩陣。而非負表示分解的矩陣都不包含負值。從應用的角度來說，矩陣分解能夠用於發現兩種實體間的潛在特徵，一個最常見的應用就是協同過濾中的預測打分值，而從協同過濾的這個角度來說，非負也很容易理解：打分都是正的，不會出現負值。

在例如Netflix或MovieLens這樣的推薦系統中，有用戶和電影兩個集合。給出每個用戶對部分電影的打分，我們希望預測該用戶對其他沒看過電影的打分值，這樣可以根據打分值爲其做出推薦。用戶和電影的關係，可以用一個矩陣來表示，每一行表示用戶，每一列表示電影，每個元素的值表示用戶對已經看過的電影的打分，矩陣看起來如下：

	D1	D2	D3	D4
U1	5	3	-	1
U2	4	-	-	1
U3	1	1	-	5
U4	1	-	-	4
U5	-	1	5	4

而使用矩陣分解來預測評分的思想來源於，我們可以通過矩陣分解來發現一些用戶打分的潛在特徵。比如兩個人都喜歡某一演員，那他們就傾向於給TA演的電影打高分；或者兩個人都喜歡動作片。假如我們能夠發現這些特徵，我們就能夠預測特定用戶對特定電影的打分。

爲了發現不同的特徵，我們假設特徵的數量少於用戶和電影的數量（要是每個用戶都有一個獨立特徵，那代價也太大啦）。

數學基礎

首先，我們定義U爲用戶的集合，D爲電影的集合，R = U * D，爲評分的集合。假設我們需要尋找K個特徵，則我們的目標是，找到兩個矩陣P和Q，使得它們相乘近似等於R。即：

$\text{[math]}$

這樣P的每一行表示用戶，每一列表示一個特徵，它們的值表示用戶與某一特徵的相關性，值越大，表明特徵越明顯。同理，Q的每一行表示電影，每一列表示電影與特徵的關聯。最後爲了預測用戶ui對特定電影dj的評分，我們可以直接計算ui和dj對應的特徵向量的點積，即：

$\text{[math]}$

現在我們就來計算P和Q。最簡單的方法就是梯度下降，該方法先初始化P和Q爲特定的值，計算它們的乘積與真實矩陣的誤差，然後通過迭代，逐漸減小誤差直至收斂。

由於誤差可大可小，這裏使用平方根誤差(squared error)來計算，計算公式如下：

$\text{[math]}$

即循環地計算每一條目的誤差，最後相加。

爲了最小化誤差，我們需要知道怎麼改變Pik和Qkj的值(在梯度下降中表現爲下降的方向)。我們對這個公式求偏微分，即得：

$\text{[math]}$

計算出梯度之後，我們逐步更新Pik和Qkj：

$\text{[math]}$

上面公式中， $\text{[math]}$ 爲梯度下降常數，通常取一個較小的值（防止無法收斂），如0.0002。

有人可能會問一個問題：假如我們計算出P和Q，使得P*Q近似等於R，那麼那些未評分的不全是0了麼？首先，我們並不要求P*Q精確等於R；其次，我們輸入的數據是所有已評分的數據（或它的子集），即訓練集，而並不包含未評分的數據。因此，它能夠對未評分的做出不等於0的預測。

通過上面的更新規則，我們就可以逐步減小誤差，直至收斂：

$\text{[math]}$

規範化

上面的算法只是最簡單的一個實現，實際使用中可能複雜得多。一個最常見的修改就是引入規範化，以防止過度擬合。這通過加入另外一個參數 $\text{[math]}$ 來修改誤差公式：

$\text{[math]}$

參數 $\text{[math]}$ 用來控制用戶特徵向量與條目特徵向量的比例，以避免出現特徵向量中出現特別大的值。實際應用中，通常設置爲0~0.02之間的值。因此更新公式變成：

$\text{[math]}$

一個簡單的python實現如下（需要安裝numpy）

import numpy
 
def matrix_factorisation(R, P, Q, K, steps=5000, alpha=0.0002, beta=0.02):
    Q = Q.T
    for step in range(steps):
        for i in range(len(R)):
            for j in range(len(R[i])):
                if R[i][j] > 0:
                    eij = R[i][j] - numpy.dot(P[i,:],Q[:,j])
                    for k in range(K):
                        P[i][k] = P[i][k] + alpha * (2 * eij * Q[k][j] - beta * P[i][k])
                        Q[k][j] = Q[k][j] + alpha * (2 * eij * P[i][k] - beta * Q[k][j])
        eR = numpy.dot(P,Q)
        e = 0
        for i in range(len(R)):
            for j in range(len(R[i])):
                if R[i][j] > 0:
                    e = e + pow(R[i][j] - numpy.dot(P[i,:],Q[:,j]), 2)
                    for k in range(K):
                        e = e + (beta/2) * (pow(P[i][k],2) + pow(Q[k][j],2))
        if e < 0.001:
            break
    return P, Q.T

使用示例如下：

R = [
     [5,3,0,1],
     [4,0,0,1],
     [1,1,0,5],
     [1,0,0,4],
     [0,1,5,4],
    ]
 
R = numpy.array(R)
 
N = len(R)
M = len(R[0])
K = 2
 
P = numpy.random.rand(N,K)
Q = numpy.random.rand(M,K)
 
nP, nQ = matrix_factorisation(R, P, Q, K)
nR = numpy.dot(nP, nQ.T)
print(nR)

最後P*Q還原出的矩陣如下：

	D1	D2	D3	D4
U1	4.97	2.98	2.18	0.98
U2	3.97	2.40	1.97	0.99
U3	1.02	0.93	5.32	4.93
U4	1.00	0.85	4.59	3.93
U5	1.36	1.07	4.89	4.12

可以看到，還原後的矩陣跟原矩陣很接近，並且對原來空缺的值作出了預測。在這個例子中，我們可以看到U1和U2口味比較接近，他們都喜歡D1和D2。而其他的用戶則喜歡D3,D4和D5。

以上轉自：http://blog.csdn.net/inte_sleeper/article/details/7294003

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

NMF算法簡介及python實現(gradient descent)

《集體智慧編程》之決策樹（學習筆記）

NMF算法簡介及python實現(gradient descent)

lucene學習筆記之構建索引

支持向量機筆記（四） Kernel

python庫學習之re

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結