MovieLens數據集

MovieLens數據集是一個關於電影評分的數據集,裏面包含了從IMDB, The Movie DataBase上面得到的用戶對電影的評分信息,詳細請看下面的介紹。


介紹:

links.csv:

文件裏面的內容是幫助你如何通過網站id在對應網站上找到對應的電影鏈接的。數據格式如下: 
movieId, imdbId, tmdbId 
movieId:表示這部電影在movielens上的id,可以通過鏈接https://movielens.org/movies/(movieId)來得到。 
imdbId:表示這部電影在imdb上的id,可以通過鏈接http://www.imdb.com/title/(imdbId)/ 
來得到。 
tmdbId:表示這部電影在themoviedb上的id,可以通過鏈接http://www.imdb.com/title/(tmdbId)/ 
來得到。

movies.csv:

movieId, title, genres 
文件裏包含了一部電影的id和標題,以及該電影的類別。數據格式如下: 
movieId, title, genres 
movieId:每部電影的id 
title:電影的標題 
genres:電影的類別(詳細分類見readme.txt)

ratings.csv:

文件裏面的內容包含了每一個用戶對於每一部電影的評分。數據格式如下: 
userId, movieId, rating, timestamp 
userId: 每個用戶的id 
movieId: 每部電影的id 
rating: 用戶評分,是5星制,按半顆星的規模遞增(0.5 stars - 5 stars) 
timestamp: 自1970年1月1日零點後到用戶提交評價的時間的秒數 
數據排序的順序按照userIdmovieId排列的。

tags.csv:

文件裏面的內容包含了每一個用戶對於每一個電影的分類。數據格式如下: 
userId, movieId, tag, timestamp 
userId: 每個用戶的id 
movieId: 每部電影的id 
tag: 用戶對電影的標籤化評價 
timestamp: 自1970年1月1日零點後到用戶提交評價的時間的秒數 
數據排序的順序按照userIdmovieId排列的。

README.txt


下載鏈接:

官網地址: https://grouplens.org/datasets/movielens/ 
ml-latest-small(1MB): http://files.grouplens.org/datasets/movielens/ml-latest-small.zip 
ml-latest(234.2MB): http://files.grouplens.org/datasets/movielens/ml-latest.zip


讀取方法

利用Python的csv模塊進行讀取操作。

import csv
with open(file_url, 'r') as f:
     data = csv.reader(f)
     for i in data:
         print(i)
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章