推薦系統開源軟件列表彙總和評點

收集和整理了目前互聯網上能找到的開源推薦系統，並附上了個人的一些簡單點評（未必全面準確），這個列表是目前爲止比較全面的了，希望對大家瞭解掌握推薦系統有幫助（文/陳運文）

SVDFeature

由上海交大的同學開發，採用C++語言，代碼質量很高。去年我們參加KDD競賽時用過，很好很方便，而且出自咱們國人之手，所以置頂推薦！

項目地址：

http://svdfeature.apexlab.org/wiki/Main_Page

SVDFeature包含一個很靈活的Matrix Factorization推薦框架，能方便的實現SVD、SVD++等方法, 是單模型推薦算法中精度最高的一種。SVDFeature代碼精煉，可以用相對較少的內存實現較大規模的單機版矩陣分解運算。

另外含有Logistic regression的model，可以很方便的用來進行ensemble運算

Crab

項目地址：

http://geektell.com/story/crab-recommender-systems-in-python/

系統的Tutorial可以看這裏：

http://muricoca.github.io/crab/

Crab是基於Python開發的開源推薦軟件，其中實現有item和user的協同過濾。據說更多算法還在開發中，

Crab的python代碼看上去很清晰明瞭，適合一讀

CofiRank

C++開發的 Collaborative Filtering算法的開源推薦系統，但似乎2009年後作者就沒有更新了，

CofiRank依賴boost庫，聯編會比較麻煩。不是特別推薦

項目地址：

http://www.cofirank.org/

EasyRec

Java開發的推薦系統，感覺更像一個完整的推薦產品，包括了數據錄入模塊、管理模塊、推薦挖掘、離線分析等，整個系統比較完備。

項目地址：

http://easyrec.org/

GraphLab

項目地址：

http://graphlab.org/

Graphlab是基於C++開發的一個高性能分佈式graph處理挖掘系統，特點是對迭代的並行計算處理能力強（這方面是hadoop的弱項），

由於功能獨到，GraphLab在業界名聲很響

用GraphLab來進行大數據量的random walk或graph-based的推薦算法非常有效。

Graphlab雖然名氣比較響亮（CMU開發），但是對一般數據量的應用來說可能還用不上

Lenskit

http://lenskit.grouplens.org/

這個Java開發的開源推薦系統，來自美國的明尼蘇達大學，也是推薦領域知名的測試數據集Movielens的作者，

他們的推薦系統團隊，在學術圈內的影響力很大，很多新的學術思想會放到這裏

Mahout

網址

http://mahout.apache.org/

Mahout知名度很高，它是Apache基金資助的重要項目，在國內流傳很廣，並已經有一些中文相關書籍了。注意Mahout是一個分佈式機器學習算法的集合，協同過濾只是其中的一部分。除了被稱爲Taste的分佈式協同過濾的實現（Hadoop-based，另有pure Java版本），Mahout裏還有其他常見的機器學習算法的分佈式實現方案。

另外Mahout的作者之一Sean Owen基於Mahout開發了一個試驗性質的推薦系統，稱爲Myrrix, 可以看這裏：

http://myrrix.com/quick-start/

MyMediaLite

http://mymedialite.net/index.html

基於.NET框架的C#開發（也有Java版本），作者基本來自德國、英國等歐洲的一些高校。

除了提供了常見場景的推薦算法，MyMediaLite也有Social Matrix Factorization這樣獨特的功能

儘管是.Net框架，但也提供了Python、Ruby等腳本語言的調用API

MyMediaLite的作者之一Lars Schmidt在2012年KDD會議上專門介紹過他們系統的一些情況，可惜由於.Net開發框架日漸式微，MyMediaLite對Windows NT Server的系統吸引力大些，LAMP網站用得很少

LibFM

項目網址：

http://www.libfm.org/

作者是德國Konstanz University的Steffen Rendle，去年KDD Cup競賽上我們的老對手，他用LibFM同時玩轉Track1和Track2兩個子競賽單元，都取得了很好的成績，說明LibFM是非常管用的利器（雖然在Track1上被我們打敗了，hiahia）

顧名思義，LibFM是專門用於矩陣分解的利器，尤其是其中實現了MCMC（Markov Chain Monte Carlo）優化算法，比常見的SGD（隨即梯度下降）優化方法精度要高（當然也會慢一些）

順便八卦下，去年KDD會議上和Steffen當面聊過，他很靦腆而且喜歡偷笑，呵呵挺可愛。

LibMF

項目地址：

http://www.csie.ntu.edu.tw/~cjlin/libmf/

注意LibMF和上面的LibFM是兩個不同的開源項目。這個LibMF的作者是大名鼎鼎的臺灣國立大學，他們在機器學習領域享有盛名，近年連續多屆KDD Cup競賽上均獲得優異成績，並曾連續多年獲得冠軍。臺灣大學的風格非常務實，業界常用的LibSVM， Liblinear等都是他們開發的，開源代碼的效率和質量都非常高

LibMF在矩陣分解的並行化方面作出了很好的貢獻，針對SDG優化方法在並行計算中存在的locking problem和memory discontinuity問題，提出了一種矩陣分解的高效算法，根據計算節點的個數來劃分評分矩陣block，並分配計算節點。系統介紹可以見這篇論文（Recsys 2013的 Best paper Award）

Y. Zhuang, W.-S. Chin, Y.-C. Juan, and C.-J. Lin. A Fast Parallel SGD for Matrix Factorization in Shared Memory Systems. Proceedings of ACM Recommender Systems 2013.