首播過億,火爆全網,我分析了《乘風破浪的姐姐》,發現了這些祕密

最近,由芒果TV推出的綜藝節目《乘風破浪的姐姐》,可謂是火爆了全網,堪稱年度綜藝前幾名的存在,首播播放量便過億!相比青春有你,這些姐姐雖然在年齡上可能不具有優勢,但是她們身上散發的個人魅力還是相當了得,個個都是實力牌。

方便大家更好的對選手們有一個全方位的瞭解,小編抓取了參賽姐姐們的信息,並帶領大家一步步的看一下,從我們提取到的數據中能得到哪一些信息。

01

數據的獲取

首先,我們需要做的就是抓取到選手們的信息,這裏,我們爬取的是公開在百度百科和維基百科上的選手信息。

由於兩個網站採用的都是靜態的頁面,所以抓取也相對簡單,我們以較爲複雜的百度百科抓取爲例,來介紹一下程序的抓取。如下圖所示:

網頁的源代碼中對應着選手的一些信息,包括姓名,宣傳照和職業等等信息。我們需要分析網頁源代碼來提取宣傳照圖片的地址、選手的姓名以及職業,部分程序如下圖所示:

  • 上圖中,我們利用GetPicSource函數首先提取了宣傳照圖片的下載地址;

  • 然後利用BeautifulSoup庫來解析網頁源代碼,由於不同的div標籤數量不一致,所以需要格外自己的分析,並進行解析;

  • 接着將我們提取到的信息進行保存即可。

對於維基百科的信息提取也是同樣的操作,最終我們抓取到的信息,包括了選手們的姓名,年齡,出生年月,出生地以及圖片的下載地址,職業以及初始舞臺分數等信息。

02

數據的處理

對於信息提取完畢後,接下來就是對於數據的處理。我們先來看一下我們提取到的數據:

我們可以看到,我們已經抓取到了我們需要的數據,接下來我們就可以對數據進行簡單的清晰,並進行分析。對於宣傳照的抓取和保存,可以簡單的利用五行代碼即可搞定,程序和提取結果,如下圖所示:

03

數據的分析

我們對於選手的年齡進行一下分析,這裏需要注意的是,小編採用的是pyecharts1.8.1版本進行的可視化展示。同時pyecharts1.x和pyecharts0.x版本之間存在較大的差異。如果大家在運行源碼時出現找不到模塊的錯誤,大多是版本不正確引起的,需要大家格外的注意。好了我們接着進行程序和結果的展示:

1).年齡的分佈

我們首先對年齡進行分段劃分,然後對分段年齡進行可視化展示,如圖所示,選手的年齡大都集中在33-40和26-33的年齡段,相比於其他選秀節目,《乘風破浪的姐姐》堪稱是大齡選秀。

2).職業分佈

對於選手的職業分佈,我們可以看到,參賽的選手大多數演員和歌手出身,但是選手中存在許多身兼數職的現象,比如說某位參賽選手,既是歌手同時也是演員,可謂是演而優則唱的代表。

3).出生地分佈

對於選手的出生地,我們只是選取了出生地在中國的選手,我們可以看到,選手中湖南選手是最多的,其次是四川的選手,從整體的南北方分佈來看,南方的選手要多於北方。

4).年齡vs得分關係

最後,我們來看一下評分前五名的選手在年齡和初舞臺評分上的關係,我們可以看到,前五名的選手得分都在86分以上,而她們的年齡則是分佈在30歲左右。

對於參加比賽的整體選手,她們的平均年齡爲35歲,而評分前五名的選手,她們的平均年齡僅爲30.8歲,可見,年齡因素對於成績存在一定的反比例影響。

以上就是小編今天爲大家帶來的《乘風破浪的姐姐》的一些解密,大家可以下載源碼以及小編爲大家下載好的數據,進行進一步的分析,發現更多的祕密,大家趕快行動起來吧。今天你看了乘風破浪的姐姐》嗎?歡迎留言區點評。

需要源碼可以在文末獲取。

618福利活動,噹噹4折起

衝鴨!羊毛薅起來!噹噹618專享不到4折,Python書籍囤起來!

近期原創熱門:

程序員GitHub

掃碼輸入【乘風破浪】

獲取本篇源碼

點的“在看”,否則就看不到我了555
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章