Surprise：一個Python推薦系統算法庫

原創

marsjhao

2018-09-06 22:23

Surprise，是scikit系列中的一個推薦系統算法庫。

官網：http://surpriselib.com/；Conda指令：https://anaconda.org/nicolashug/scikit-surprise

文檔：http://surprise.readthedocs.io/en/stable/

一、基本模塊

1. 推薦算法分類

可分爲基於用戶行爲的推薦算法和基於內容（物品屬性）的推薦算法。

基於用戶行爲數據的推薦算法一般稱爲協同過濾算法，主要方法有基於鄰域的方法（neighborhood-based）、隱語義模型（latent factor model，LFM）、基於圖的隨機遊走算法（random walk on graph）等。

在業界得到最廣泛應用的算法是基於鄰域的方法，主要包含下面兩種算法：基於用戶的協同過濾算法 UserCF，給用戶推薦和他興趣相似的其他用戶喜歡的物品；基於物品的協同過濾算法 ItemCF，給用戶推薦和他之前喜歡的物品相似的物品。

2. 基於鄰域的CF算法的可設定度量準則，surprise.similarities 模塊

餘弦相似度 cosine、均方差相似度 msd、皮爾遜相關係數 pearson、基線皮爾遜相關係數 pearson_baseline。

3. 評價指標模塊，surprise.accuracy

均方根誤差 rmse、平均絕對誤差 mae、fcp。

4. 數據集 surprise.dataset 模塊

包含了 movielens-100k、movielens-1m、Jester 數據集。還可讀取 pandas.DataFrame 格式及其他文件格式的數據集。

5. surprise.model_selection 模塊

提供了用於交叉驗證所需要的數據集切分、自動CV、網格搜索 GridSearchCV 等。

二、實現推薦算法

1. surprise.prediction_algorithms.algo_base

該模塊定義了類AlgoBase，每個單獨的預測算法都繼承自該類。

2. surprise.prediction_algorithms.predictions，定義了預測結果類。

3. Basic algorithms 基本算法

（1）prediction_algorithms.random_pred.NormalPredictor

從訓練集估計得到一個正態分佈（均值和標準差），基於該正態分佈進行隨機預測。

（2）prediction_algorithms.baseline_only.BaselineOnly

4. k-NN inspired algorithms kNN算法

（1）prediction_algorithms.knns.KNNBasic，即基本的協同過濾算法。

k，kNN 算法中的 k 參數；
min_k，需考慮的最小鄰居數，當鄰居數不足時，使用全局平均進行預測；
sim_options，該參數接收一個 dict，如
- sim_options = {'name': 'cosine',

'user_based': False # compute similarities between items}

（2）prediction_algorithms.knns.KNNWithMeans，考慮了每個用戶的平均打分值。

（3）prediction_algorithms.knns.KNNWithZScore，考慮了每個用戶的 z-score 標準化。

（4）prediction_algorithms.knns.KNNBaseline，包含可學習參數，可使用 SGD 和 ALS 算法進行參數估計。推薦使用 pearson_baseline 度量方式。

bsl_options，接收一個 dict，說明配置信息。
- bsl_options = {'method': 'sgd', 'learning_rate': .00005, }

5. Matrix Factorization-based algorithms

SVD、RSVD、ASVD、SVD++詳解

（1）prediction_algorithms.matrix_factorization.SVD

（2）prediction_algorithms.matrix_factorization.SVDpp

引入隱式反饋，可以是打分動作（誰對某個商品打過分），或者是瀏覽記錄等，隱式回饋的原因比較複雜，專門用一部分參數空間去建模，每個 item 對應一個向量 yi ，通過 user 隱含回饋過的 item 的集合來刻畫用戶的偏好。

（3）prediction_algorithms.matrix_factorization.NMF

NMF 非負矩陣分解，與 SVD 算法類似，用戶和物品因子都必須是正值。

6. prediction_algorithms.slope_one.SlopeOne

通過計算物品之間的平均差異來進行預測。

7. prediction_algorithms.co_clustering.CoClustering

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Surprise：一個Python推薦系統算法庫

一、基本模塊

1. 推薦算法分類

二、實現推薦算法

3. Basic algorithms 基本算法

4. k-NN inspired algorithms kNN算法

5. Matrix Factorization-based algorithms

vue項目獲取富文本編輯器wangEditor內容導出爲word（html轉word格式並下載）

dotnet C# 創建 X11 應用時設置窗口背景顏色

Navicat安裝與激活教程

TDengine docker安裝方法

vue3組件通信與props

sapui5

Alpine Linux apk add DNS lookup error

部分JDK版本的發佈時間

工作中用到的腳本合集

合併代碼時Beyond Compare設置

【Scikit-Learn 中文文檔】協方差估計 / 經驗協方差 / 收斂協方差 / 稀疏逆協方差 / Robust 協方差估計 - 無監督學習 - 用戶指南 | ApacheCN

【Scikit-Learn 中文文檔】隨機投影 - 數據集轉換 - 用戶指南 | ApacheCN

【Scikit-Learn 中文文檔】神經網絡模型（無監督）- 無監督學習 - 用戶指南 | ApacheCN

【Scikit-Learn 中文文檔】分解成分中的信號（矩陣分解問題） - 無監督學習 - 用戶指南 | ApacheCN

【Scikit-Learn 中文文檔】優化估計器的超參數 - 模型選擇和評估 - 用戶指南 | ApacheCN

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結