MovieLens數據集是一個關於電影評分的數據集,裏面包含了從IMDB, The Movie DataBase上面得到的用戶對電影的評分信息,詳細請看下面的介紹。
介紹:
links.csv:
文件裏面的內容是幫助你如何通過網站id在對應網站上找到對應的電影鏈接的。數據格式如下:
movieId, imdbId, tmdbId
movieId:表示這部電影在movielens上的id,可以通過鏈接https://movielens.org/movies/(movieId)來得到。
imdbId:表示這部電影在imdb上的id,可以通過鏈接http://www.imdb.com/title/(imdbId)/
來得到。
tmdbId:表示這部電影在themoviedb上的id,可以通過鏈接http://www.imdb.com/title/(tmdbId)/
來得到。
movies.csv:
movieId, title, genres
文件裏包含了一部電影的id和標題,以及該電影的類別。數據格式如下:
movieId, title, genres
movieId:每部電影的id
title:電影的標題
genres:電影的類別(詳細分類見readme.txt)
ratings.csv:
文件裏面的內容包含了每一個用戶對於每一部電影的評分。數據格式如下:
userId, movieId, rating, timestamp
userId: 每個用戶的id
movieId: 每部電影的id
rating: 用戶評分,是5星制,按半顆星的規模遞增(0.5 stars - 5 stars)
timestamp: 自1970年1月1日零點後到用戶提交評價的時間的秒數
數據排序的順序按照userId,movieId排列的。
tags.csv:
文件裏面的內容包含了每一個用戶對於每一個電影的分類。數據格式如下:
userId, movieId, tag, timestamp
userId: 每個用戶的id
movieId: 每部電影的id
tag: 用戶對電影的標籤化評價
timestamp: 自1970年1月1日零點後到用戶提交評價的時間的秒數
數據排序的順序按照userId,movieId排列的。
README.txt
下載鏈接:
官網地址: https://grouplens.org/datasets/movielens/
ml-latest-small(1MB): http://files.grouplens.org/datasets/movielens/ml-latest-small.zip
ml-latest(234.2MB): http://files.grouplens.org/datasets/movielens/ml-latest.zip
讀取方法
利用Python的csv模塊進行讀取操作。
import csv
with open(file_url, 'r') as f:
data = csv.reader(f)
for i in data:
print(i)