MovieLens數據集

原創

雾樱

2018-08-29 19:18

MovieLens數據集是一個關於電影評分的數據集，裏面包含了從IMDB, The Movie DataBase上面得到的用戶對電影的評分信息，詳細請看下面的介紹。

介紹：

links.csv:

文件裏面的內容是幫助你如何通過網站id在對應網站上找到對應的電影鏈接的。數據格式如下：
movieId, imdbId, tmdbId
movieId:表示這部電影在movielens上的id，可以通過鏈接https://movielens.org/movies/(movieId)來得到。
imdbId:表示這部電影在imdb上的id，可以通過鏈接http://www.imdb.com/title/(imdbId)/
來得到。
tmdbId:表示這部電影在themoviedb上的id，可以通過鏈接http://www.imdb.com/title/(tmdbId)/
來得到。

movies.csv:

movieId, title, genres
文件裏包含了一部電影的id和標題，以及該電影的類別。數據格式如下：
movieId, title, genres
movieId:每部電影的id
title:電影的標題
genres:電影的類別（詳細分類見readme.txt）

ratings.csv:

文件裏面的內容包含了每一個用戶對於每一部電影的評分。數據格式如下：
userId, movieId, rating, timestamp
userId: 每個用戶的id
movieId: 每部電影的id
rating: 用戶評分，是5星制，按半顆星的規模遞增(0.5 stars - 5 stars)
timestamp: 自1970年1月1日零點後到用戶提交評價的時間的秒數
數據排序的順序按照userId，movieId排列的。

tags.csv:

文件裏面的內容包含了每一個用戶對於每一個電影的分類。數據格式如下：
userId, movieId, tag, timestamp
userId: 每個用戶的id
movieId: 每部電影的id
tag: 用戶對電影的標籤化評價
timestamp: 自1970年1月1日零點後到用戶提交評價的時間的秒數
數據排序的順序按照userId，movieId排列的。

README.txt

下載鏈接：

官網地址: https://grouplens.org/datasets/movielens/
ml-latest-small(1MB): http://files.grouplens.org/datasets/movielens/ml-latest-small.zip
ml-latest(234.2MB): http://files.grouplens.org/datasets/movielens/ml-latest.zip

讀取方法

利用Python的csv模塊進行讀取操作。

import csv
with open(file_url, 'r') as f:
     data = csv.reader(f)
     for i in data:
         print(i)

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

MovieLens數據集

MovieLens數據集是一個關於電影評分的數據集，裏面包含了從IMDB, The Movie DataBase上面得到的用戶對電影的評分信息，詳細請看下面的介紹。

介紹：

links.csv:

movies.csv:

ratings.csv:

tags.csv:

README.txt

下載鏈接：

讀取方法

HTML頁面關於高分屏的設置

北歐瑞典挪威芬蘭瑞士TikTok海外網紅與YouTube博主的合作模式

druid數據源 xml配置

MySQL統計函數記錄——按月、按季度、按日、時間段統計以及MySQL日期時間函數大全

使用在hdfs上的文件導入到hive中

hive中select語法

[Leetcode]迴文數（python版）

[Leetcode]整數反轉（python版）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結