基於pandas的男女電影評價差異分析

原創

2020-04-15 14:00

看了南京大學的《用python玩轉數據視頻》，Python強大。代碼做了些註釋。慢慢逐漸深入。

import pandas as pd
import numpy as np
 
# Download url: https://files.grouplens.org/datasets/movielens/ml-100k.zip

# 讀取文件
unames = ['user id', 'age', 'gender', 'occupation', 'zip code']
users = pd.read_csv('ml-100k/u.user', sep = '|', names = unames) # 讀取文件read_csv，sep指定分隔符
rnames = ['user id', 'item id', 'rating', 'timestamp']
ratings = pd.read_csv('ml-100k/u.data', sep = '\t', names = rnames)

# 數據篩選
users_df = users.loc[:, ['user id', 'gender']] # loc進行數據選取
ratings_df = ratings.loc[:, ['user id', 'rating']]
rating_df = pd.merge(users_df, ratings_df) # 合併
 
# Way 1 - groupby() 計算標準差
result = rating_df.groupby('gender').rating.apply(pd.Series.std)
print(result)
# Way 1 - pivot_table() 透視表 動態排列，分類彙總，可以實現groupby功能 index是索引
result = pd.pivot_table(rating_df, index = ['gender'], values = 'rating', aggfunc = pd.Series.std)
print(result)
 
# Way 2 - groupby() 據user id，gender計算男女標準差
df_temp = rating_df.groupby(['user id', 'gender']).apply(np.mean)
result = df_temp.groupby('gender').rating.apply(pd.Series.std)
print(result)
# Way 2 - pivot_table() 
gender_table = pd.pivot_table(rating_df, index = ['gender', 'user id'], values = 'rating')
Female_df = gender_table.query("gender == ['F']") # 獲取女性的數據
Male_df = gender_table.query("gender == ['M']") # 獲取男性的數據
Female_std = pd.Series.std(Female_df)
Male_std = pd.Series.std(Male_df) # 計算標準差
print('Gender', '\nF\t%.6f' % Female_std, '\nM\t%.6f' % Male_std) # 輸出

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

基於pandas的男女電影評價差異分析

985 碩士程序員，空窗 4 個月沒有 Offer！

一文搞懂 Spring 循環依賴

賽博鬥地主——使用大語言模型扮演Agent智能體玩牌類遊戲。

VScode右鍵打開(添加到右鍵)

【PAT乙級】數素數

【操作系統】進程的狀態轉化

【PAT乙級】有幾個PAT

【PAT乙級】到底買不買

基於隨機森林模型的紅酒品質分析

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結