机器学习项目（五）电影推荐系统（四）

原創

2020-04-28 22:06

五、协同过滤

种类

基于记忆：
基于物品
基于用户

集成：

Combine the Model-based&Memory-based

基于模型：

矩阵分解
深度学习

基于用户

基于模型
不同算法

特征值和特征向量
$AX = \lambda X$
X就是特征向量
$\lambda $就是特征值

$A = w \lambda w^{-1}$

SVD的定义

SVD也是对矩阵进行分解，但是和特征分解不同，SVD并不要求分解的矩阵为方阵。假设我们的矩阵A是一个mn的矩阵，那么我们定义矩阵A的SVD为
$A = U \sigma V^T$
其中U是一个mn的矩阵， $\sigma$ 是一个mn矩阵，除了主对角线上的元素以外全为0，主对角线上的每个元素都称为奇异值，V是一个nm的矩阵，U和V都是酉矩阵(实正交矩阵)，即满足 $V^T V = I,U^T U = I$

右奇异向量求解

如果我们将A的装置和A做矩阵乘法，那么会得到n*n的一个方阵 $A^TA$ ,既然 $A^TA$ 是方阵，那么我们就可以进行特征分解，得到的特征值和特征向量满足下式：
$(A^TA)v_i = \lambda v_i$
得到：矩阵 $A^TA$ 的n个特征值和对应的n个特征向量v。
$\mathbf{A}=\mathbf{U} \Sigma V^{T} \Rightarrow \mathbf{A} \mathbf{V}=\mathbf{U} \Sigma V^{T} \mathbf{V} \Rightarrow \mathbf{A} \mathbf{V}=\mathbf{U} \mathbf{\Sigma} \Rightarrow \mathbf{A} \boldsymbol{v}_{i}=\boldsymbol{\sigma}_{i} \boldsymbol{\mu}_{i} \Rightarrow \boldsymbol{\sigma}_{i}=\mathbf{A} \boldsymbol{v}_{i} / \boldsymbol{\mu}_{i}$
这样我们可以求出我们的每个奇异值，进而求出奇异值矩阵 $\Sigma$
$\mathrm{A}=\mathrm{U} \Sigma \mathrm{V}^{\mathrm{T}} \Rightarrow \mathrm{A}^{\mathrm{T}}=\mathrm{V} \Sigma^{\mathrm{T}} \mathrm{U}^{\mathrm{T}} \Rightarrow \mathrm{A}^{\mathrm{T}} \mathrm{A}=\mathrm{V} \Sigma^{\mathrm{T}} \mathrm{U}^{\mathrm{T}} \mathrm{U} \Sigma \mathrm{V}^{\mathrm{T}}=\mathrm{V} \Sigma^{2} \mathrm{V}^{\mathrm{T}}$

SVD的一些性质

大矩阵分解
$A_{m * n}=U_{m * n} \Sigma_{m * n} V_{m * n}^{T} \cong U_{m * k} \Sigma_{k * k} V_{k * n}^{T}$

SVD用于PCA降维
假设样本时mn的矩阵X，如果我们通过SVD找到了矩阵 $X^TX$ 最大的d个特征向量张成的md维矩阵U，则做如下处理
$X_{\mathrm{d} * n}^{\prime}=U_{\mathrm{d} * m}^{T} X_{\mathrm{m} * n}$
可以得到一个dn的矩阵 $x^{\prime}$ ，这个矩阵和我们原来的mn维样本矩阵X相比，行数从m减到了d，可见对行数进行了压缩
做奇异矩阵可以用于行数的压缩，相对的，右奇异矩阵可以用于列数即特征维度的压缩，也就是我们的PCA降维

数据压缩
$\rho=\frac{n^{2}}{k(2 n+1)}$

推荐系统

当给定一个打分矩阵时，矩阵中行代表用户user,列代表物品item，其中的值代表用户对物品的打分
基于svd的优势在于:用户的评分数据是稀疏矩阵，可以用SVD将原始数据映射到低维空间中，然后计算物品item之间的相似度，可以节省计算资源
整体思路：找到用户没有评分的物品，然后再经过SVD"压缩"后的低维空间中，计算未评分物品与其他物品的相似性，得到一个预测打分，再对这些物品的评分从高到低进行排序，返回前N个物品推荐给用户

推荐系统实现

一、用户未评分的商品列表，对打分矩阵A做SVD，得到三个矩阵 $U,\Sigma,V^T$
二、选定留下k个特征值、特征向量，取u矩阵的前k列，得到 $\mu_k$ ,取sigma的前k个值，得到 $sigma_k$
三、 $R = A^T * \mu_k *sigma_k$ ,遍历未评分的商品列表

import pandas as pd
from surprise import Reader, Dataset, SVD, evaluate
import numpy as np


reader = Reader()

ratings = pd.read_csv('../input/ratings_small.csv')
ratings.head()

data = Dataset.load_from_df(ratings[['userId', 'movieId', 'rating']], reader)
data.split(n_folds=5)

svd = SVD()
evaluate(svd, data, measures=['RMSE', 'MAE'])

trainset = data.build_full_trainset()
svd.train(trainset)

ratings[ratings['userId'] == 1]

svd.predict(1, 302, 3)

def convert_int(x):
    try:
        return int(x)
    except:
        return np.nan

id_map = pd.read_csv('../input/links_small.csv')[['movieId', 'tmdbId']]
id_map['tmdbId'] = id_map['tmdbId'].apply(convert_int)
id_map.columns = ['movieId', 'id']
id_map = id_map.merge(smd[['title', 'id']], on='id').set_index('title')
#id_map = id_map.set_index('tmdbId')

indices_map = id_map.set_index('id')


def hybrid(userId, title):
    idx = indices[title]
    tmdbId = id_map.loc[title]['id']
    # print(idx)
    movie_id = id_map.loc[title]['movieId']

    sim_scores = list(enumerate(cosine_sim[int(idx)]))
    sim_scores = sorted(sim_scores, key=lambda x: x[1], reverse=True)
    sim_scores = sim_scores[1:26]
    movie_indices = [i[0] for i in sim_scores]

    movies = smd.iloc[movie_indices][['title', 'vote_count', 'vote_average', 'year', 'id']]
    movies['est'] = movies['id'].apply(lambda x: svd.predict(userId, indices_map.loc[x]['movieId']).est)
    movies = movies.sort_values('est', ascending=False)
    return movies.head(10)



hybrid(1, 'Avatar')


hybrid(500, 'Avatar')

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

机器学习项目（五）电影推荐系统（四）

五、协同过滤

种类

集成：

基于模型：

SVD的定义

右奇异向量求解

SVD的一些性质

推荐系统

推荐系统实现

LeetCode826.安排工作以達到最大收益

算法強化 —— XGBoost

算法強化 —— 提升樹算法(三)

算法強化 —— XGBoost(三)

算法強化 —— 反向傳播

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

机器学习项目（五） 电影推荐系统（四）

五、协同过滤

种类

集成：

基于模型：

SVD的定义

右奇异向量求解

SVD的一些性质

推荐系统

推荐系统实现

机器学习项目（五）电影推荐系统（四）