推薦系統數據集大列表

作者:daicoolb
編譯:ronghuaiyang

導讀

今天給大家介紹一個github倉庫,收集了非常多的推薦系統的數據集,非常的全面,非常的實用,做推薦系統相關的同學可以收藏一下。

這些數據集在可作爲基準的推薦系統中非常流行。

  • Douban:http://socialcomputing.asu.edu/datasets/Douban 這是一個匿名的豆瓣數據集,包含129,490個獨立用戶和58,541個獨立電影條目。
  • Epinions:http://www.trustlet.org/epinions.html Epinions是一個人們可以評論產品的網站。
  • Flixster:http://socialcomputing.asu.edu/datasets/Flixster Flixster是一個社交電影網站,允許用戶分享電影評級,發現新電影,並與其他有類似電影品味的人見面。
  • CiaoDVD:https://www.librec.net/datasets.html CiaoDVD是從dvd.ciao.co.中抓取的2013年12月英國網站整個dvd類別的數據集。
  • MACLab:http://mac.citi.sinica.edu.tw/LJ#.VRGYfOHlZ40 這個項目的目的是研究用戶的情緒和音樂情緒。
  • DEAPdataset:http://www.eecs.qmul.ac.uk/mmv/datasets/deap/index.html 使用腦電圖、生理和視頻信號進行情緒分析的數據集。
  • MyPersonalityDataset:http://mypersonality.org/wiki/doku.php myPersonality是一個很受歡迎的Facebook應用程序,它允許用戶進行真實的心理測試,並允許我們(在徵得同意的情況下)記錄他們的心理和Facebook資料。目前,我們的數據庫包含超過600萬個測試結果,以及超過400萬個Facebook個人簡介。
  • Bibsonomy:http://www.kde.cs.uni-kassel.de/bibsonomy/dumps 社交書籤系統中的標籤推薦。
  • Delicious:http://www.dai-labor.de/en/competence_centers/irml/datasets/ plista新聞推薦數據集,美味可口。
  • Movielens:https://grouplens.org/datasets/movielens/ 穩定的基準數據集。2000萬個評分和46.5萬個標籤應用程序被13.8萬用戶應用於2.7萬部電影。包括標籤基因組數據,1100個標籤的1200萬個相關性得分。
  • Jester:http://eigentaste.berkeley.edu/dataset/ 來自小丑在線笑話推薦系統的匿名評級。
  • BookCrossing:http://www2.informatik.uni-freiburg.de/~cziegler/BX/ Book-Crossing數據集。
  • LastFM:https://grouplens.org/datasets/hetrec-2011/ 來自1892個用戶的92,800張藝術家錄音。
  • Wikipedia:https://en.wikipedia.org/wiki/Wikipedia:Database_download#English-language_Wikipedia 維基百科向感興趣的用戶提供所有可用內容的免費拷貝。這些數據庫可用於鏡像、個人使用、非正式備份、脫機使用或數據庫查詢。
  • OpenStreetMap:http://planet.openstreetmap.org/planet/full-history/ 這裏找到的文件是OpenStreetMap.org數據庫的完整副本,包括編輯歷史。這些都是在Open Data Commons Open Database License 1.0許可下發布的。
  • PythonGitCode:https://github.com/lab41/hermes Hermes是Lab41對推薦系統的一次嘗試。通過分析多種推薦系統算法在不同數據集上的性能,探討了如何爲新的應用選擇推薦系統。
  • Gist:https://gist.github.com/entaroadun/1653794 爲機器學習推薦和評級的公共數據集。
  • Yelp:https://www.yelp.com/dataset Yelp數據集是用於個人、教育和學術目的的業務、評論和用戶數據的子集。可以在JSON和SQL文件中使用,在你學習如何製作移動應用程序時,可以使用它來教學生關於數據庫、學習NLP或示例生產數據。
  • AmazonReviews:http://jmcauley.ucsd.edu/data/amazon/ 該數據集包含來自Amazon的產品評論和元數據,包括1996年5月至2014年7月期間的1.428億個評論。這個數據集包括評論(評級、文本、幫助投票)、產品元數據(描述、類別信息、價格、品牌和圖像特性)和鏈接(也查看/購買圖表)。
  • CiteULike:http://www.citeulike.org/faq/data.adp CiteULike數據庫對不同領域的研究人員都有潛在的用處。物理學家和計算機科學家對分析數據結構表示了興趣,並經常要求提供數據集。以前,這是在一個特別的基礎上完成的,它依賴於我們記住更新數據文件。現在,有一個自動的過程,每天晚上運行,生成一個快照摘要,說明用哪些標籤發佈了哪些文章。
  • Taobao:https://tianchi.aliyun.com/datalab/dataSet.htm?spm=5176.100073.888.13.62f83f62aOlMEI&id=1 該數據集包含了匿名用戶在“雙十一”前後6個月的購物記錄,以及表明他們是否重複購買的標籤信息。由於隱私問題,數據採集存在偏差,因此該數據集的統計結果會與天貓的實際情況相背離。

下面是上述數據集的一些統計數據.

推薦系統數據集大列表

 

英文原文:https://github.com/daicoolb/RecommenderSystem-DataSet

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章