首播过亿,火爆全网,我分析了《乘风破浪的姐姐》,发现了这些秘密

最近,由芒果TV推出的综艺节目《乘风破浪的姐姐》,可谓是火爆了全网,堪称年度综艺前几名的存在,首播播放量便过亿!相比青春有你,这些姐姐虽然在年龄上可能不具有优势,但是她们身上散发的个人魅力还是相当了得,个个都是实力牌。

方便大家更好的对选手们有一个全方位的了解,小编抓取了参赛姐姐们的信息,并带领大家一步步的看一下,从我们提取到的数据中能得到哪一些信息。

01

数据的获取

首先,我们需要做的就是抓取到选手们的信息,这里,我们爬取的是公开在百度百科和维基百科上的选手信息。

由于两个网站采用的都是静态的页面,所以抓取也相对简单,我们以较为复杂的百度百科抓取为例,来介绍一下程序的抓取。如下图所示:

网页的源代码中对应着选手的一些信息,包括姓名,宣传照和职业等等信息。我们需要分析网页源代码来提取宣传照图片的地址、选手的姓名以及职业,部分程序如下图所示:

  • 上图中,我们利用GetPicSource函数首先提取了宣传照图片的下载地址;

  • 然后利用BeautifulSoup库来解析网页源代码,由于不同的div标签数量不一致,所以需要格外自己的分析,并进行解析;

  • 接着将我们提取到的信息进行保存即可。

对于维基百科的信息提取也是同样的操作,最终我们抓取到的信息,包括了选手们的姓名,年龄,出生年月,出生地以及图片的下载地址,职业以及初始舞台分数等信息。

02

数据的处理

对于信息提取完毕后,接下来就是对于数据的处理。我们先来看一下我们提取到的数据:

我们可以看到,我们已经抓取到了我们需要的数据,接下来我们就可以对数据进行简单的清晰,并进行分析。对于宣传照的抓取和保存,可以简单的利用五行代码即可搞定,程序和提取结果,如下图所示:

03

数据的分析

我们对于选手的年龄进行一下分析,这里需要注意的是,小编采用的是pyecharts1.8.1版本进行的可视化展示。同时pyecharts1.x和pyecharts0.x版本之间存在较大的差异。如果大家在运行源码时出现找不到模块的错误,大多是版本不正确引起的,需要大家格外的注意。好了我们接着进行程序和结果的展示:

1).年龄的分布

我们首先对年龄进行分段划分,然后对分段年龄进行可视化展示,如图所示,选手的年龄大都集中在33-40和26-33的年龄段,相比于其他选秀节目,《乘风破浪的姐姐》堪称是大龄选秀。

2).职业分布

对于选手的职业分布,我们可以看到,参赛的选手大多数演员和歌手出身,但是选手中存在许多身兼数职的现象,比如说某位参赛选手,既是歌手同时也是演员,可谓是演而优则唱的代表。

3).出生地分布

对于选手的出生地,我们只是选取了出生地在中国的选手,我们可以看到,选手中湖南选手是最多的,其次是四川的选手,从整体的南北方分布来看,南方的选手要多于北方。

4).年龄vs得分关系

最后,我们来看一下评分前五名的选手在年龄和初舞台评分上的关系,我们可以看到,前五名的选手得分都在86分以上,而她们的年龄则是分布在30岁左右。

对于参加比赛的整体选手,她们的平均年龄为35岁,而评分前五名的选手,她们的平均年龄仅为30.8岁,可见,年龄因素对于成绩存在一定的反比例影响。

以上就是小编今天为大家带来的《乘风破浪的姐姐》的一些解密,大家可以下载源码以及小编为大家下载好的数据,进行进一步的分析,发现更多的秘密,大家赶快行动起来吧。今天你看了乘风破浪的姐姐》吗?欢迎留言区点评。

需要源码可以在文末获取。

618福利活动,当当4折起

冲鸭!羊毛薅起来!当当618专享不到4折,Python书籍囤起来!

近期原创热门:

程序员GitHub

扫码输入【乘风破浪】

获取本篇源码

点的“在看”,否则就看不到我了555
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章