用Python来看看,神剧“黄金瞳”真的好看吗?


前几天地铁上看到很多人在谈论新的神剧《黄金瞳》,从开播至今,短短的三天时间内,瞬间俘获了一大批观众,我好奇的去猫眼上查看了一番,发现演员阵容强大,而且题材也很不错,猫眼评分高达9.5。这么好的影视剧,要不爬一下岂不是太可惜了?

1.网页爬取

首先我在网页端打开了《黄金瞳》的页面开发者模式,发现最为关键的观众评价不能全部爬取,于是我以手机模式打开,发现了全部的短评,而短评的json数据链接也可以在XHR下找到。如下图所示:

找到我们需要的json链接后,接下来就是观察这个链接有什么特点。url如下所示:

http://m.maoyan.com/review/v2/comments.json?movieId=1209205
&userId=-1&offset=0&limit=15&ts=0&level=2&type=3。

http://m.maoyan.com/review/v2/comments.json?movieId=1209205
&userId=-1&offset=15&limit=15&ts=0&level=2&type=3。

观察上面的两个url可以发现,不同的链接之间,区别只在于offset,也即偏移量的不同,所以在模拟浏览器进行请求时,只需要改变offset的数值即可。模拟浏览器进行数据抓取的代码如下图所示:

上述代码中要注意请求头的建立,请求头信息要补充完全,否则猫眼网页会对我们的请求进行反爬虫处理。最后我们大概得到了500多条短评数据:


2.保存数据

接下来是将数据进行提取并将我们提取的信息写入本地的csv文件当中,代码如下所示:

由于上述的链接返回的是json数据信息,因此,我们直接利用json数据库对信息进行解析,并进行提取即可。


3.看看都评论了啥

1).字数分析

爬取到信息后,先按照字数进行分析,看看大家都写了什么内容:

请注意上面的用户编号为51905119的用户,该用户竟然在评价字数为200字的情况下,给出了0分的评价。看来这部吸引大众眼球的《黄金瞳》让他感觉很失望啊。

2).评分分析

接下来,我们查看一下评分如何,我们用pyecharts快速可视化看一下:

由饼形图可见,评分为10分的占到了评价总量的80%以上

3).用户等级分布

接下来我们来看一下针对于不同的用户等级数量,以及不同等级下的用户评分。

由上图可以看出,等级1、等级2和等级3的用户都给了很高的评价,而唯一的等级5给出了一个0分的评价,还记得我们数据展示的那个0分吗?对,就是那个用户给出的,数据分析的结果与我们上面数据展示产生了很好的呼应。

4.词云看看大家的焦点

最后,我们来制作一下关于《黄金瞳》的评价词云展示,从词云里看一下大家对于这部剧的评价。

目前的评论分析主要是采集第一集,评论的样本量比较小。大家的焦点是里面有很多老戏骨,剧情有的说不错,有的说拖沓,如果后面剧情展开,能收集到上万条评论,会更准确些。

如果有看过这部片子的欢迎留言讨论。

【菜鸟学Python】累计原创近400篇趣味干货(爬虫,数据分析,算法,面试指南,原创趣味实战,Python游戏,机器学习),欢迎一起学Python,交流指正。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章