9 萬條彈幕告訴你,誰纔是《乘風破浪姐姐》裏的真正 C 位!

公衆號關注 “GitHubDaily”

設爲 “星標”,每天帶你逛 GitHub!

作者 | Mika

出品 | CDA 數據分析師(ID:cdacdacda)

今天我們來聊聊最近火到不行的綜藝 ——《乘風破浪的姐姐》,Python 分析彈幕部分請看第四部分。點擊下方視頻,先睹爲快:

如果說最近最熱門的綜藝,那《乘風破浪的姐姐》(下文簡稱《姐姐》)可謂實至名歸。

30 位出道多年的姐姐輩女藝人,一個個風格各異、個性鮮明。她們將通過合宿生活與舞臺競演,最終選出 5 位組成逆齡女團。

《乘風破浪的姐姐》就這樣突然定檔、突然播出、播出前無宣發的情況下爆了,一經播出就搶佔各大熱搜榜。

今天,我們帶大家就用數據來盤一盤這些姐姐們:

主要從以下幾點展開:

  • 乘風破浪的姐姐?NO!是興風作浪的姑奶奶

  • 出道時長十年起,這些姐姐們都有誰?

  • 豆瓣 8.3 分,姐姐們的實力妥妥的

  • Python 分析 9 萬條彈幕,誰纔是真正的 C 位?

乘風破浪的姐姐?

NO!是興風作浪的姑奶奶

 

既然是選最特別的女團,哪些人蔘加自然是關注的焦點。寧靜、伊能靜、鍾麗緹、張雨綺、萬茜、黃聖依… 光是聽到這些選手的名字就讓人太期待了!

姐姐們很 “任性”

不同於一般的女團選秀,漂亮妹妹們都得聽從節目組的安排,而這次的姐姐們普遍很 “不服管教”,畢竟都是在自己領域出道多年的資深前輩,她們非常有底氣,知道自己想要什麼。

節目組讓做自我介紹,寧靜霸氣的回覆:“還要介紹我是誰?那我這幾十年不是白乾了?”

節目組導演讓伊能靜擋一下膝蓋,伊能靜說:“這是褲子,我擋不了。你配合我一下,別讓我配合你們”。

問萬茜爲何來參加節目,萬茜回答:“經紀人逼我來的”。這也太真性情了吧,簡直不是乘風破浪的姐姐,而是興風作浪的姑奶奶們呀。

端水大師 —— 黃曉明

這些姐姐們,也讓在中餐廳裏 “我不要你覺得 我要我覺得” 的霸道總裁黃教主秒變暖心的小明同學 ——“我不要你覺得,我要您覺得” 人送稱號端水大師,滿滿的求生欲。

憑實力捱罵 —— 杜華

在點評環節中,作爲評審之一杜華也是各種憑實力捱罵。依然以評選 20 多歲女團的刻板標準評價姐姐們,讓不少觀衆都看得滿頭問號,越看越氣。

 

出道時長十年起,唱跳演樣樣精通

姐姐們到底有多強?

 

下面讓我們看到數據部分。我們蒐集了百度百科和維基百科的選手數據。

姐姐們年齡分佈

先看到年齡分佈,可以看到 29-33 這個年齡段的姐姐最多共有 11 位,佔比 36.67%。其次是 34-37 歲,共 10 位,佔比 33.33%。

姐姐們都來自哪兒?

然後是地區分佈,姐姐們都來自哪裏呢?其中來自湖南和上海的最多,各有五位。阿朵、萬茜、劉芸、沈夢辰、孟佳都是我們湖南湘妹子。然後四川、遼寧、山東的各兩位。

姐姐們都是哪些職業

在職業方面呢,我們可以看到,她們大多數演員和歌手出身,藝人中身兼數職的情況比較普遍,30 人中至少有 17 人身兼多職,其中 13 人既是演員、也是歌手。

初舞臺得分的關鍵因素

《乘風破浪的姐姐》初評分數由個人特質、成團潛力、聲樂表現力和舞臺表現構成,每項 25 分,總分 100 分。

我們通過 Python 計算數值型變量之間的 pearson 相關係數。對於係數 r 的取值,根據經驗可將相關程度分爲以下幾種情況,|r|>=0.8 時,可視爲高相關,0.5<=|r|<0.8,可視爲中度相關,0.3<=|r|<0.5 時,可視爲低度相關,|r|<0.3,可視爲不相關。根據相關係數數值,在 95% 的置信程度水平情況下:

控制其他影響因素的情況下,個人特質打分對初舞臺分數的影響最大。

  • 初評舞臺分數和年齡、出道年數沒有顯著相關關係。

  • 年齡和個人特質、成團潛力的分數間存在低度負相關關係,年齡越大,個人特質和成團潛力的得分也就越低;

  • 個人特質和成團潛力的打分之間存在高度正相關,即兩者得分存在高則同高,低則同低的情況。

豆瓣 8.3 分,姐姐們的實力妥妥的

 

目前這部綜藝在豆瓣的評分爲 8.3 分,很不錯的成績,已有 7 萬 2 千餘人進行評價。

豆瓣總體評分分佈

看到具體評分分佈,給出四星的最多,爲 38.2%;其次是 5 星 佔比 25%。看來觀衆普遍還是十分認可姐姐們的表現的。

短評詞雲圖

可以看到詞雲主要圍繞的是 "姐姐"、"節目"、"女團" 展開。其中在需選手中寧靜、萬茜被提到的頻率最高。

當然也有不少吐槽的點,大家的吐槽主要集中在:

  • 評委杜華:不公平;30 + 的女性歲月積澱了魅力,評審卻按照 20 歲女團的標準來;給丁當打分真是要氣炸。

  • 黃曉明:從霸道總裁秒慫變小明,讓人感覺尷尬不已

  • 節目組:場景佈置令人寒酸,攝影差,燈光差,佈景差。

也有吐槽選手的

  • 黃聖依:等黃聖依淘汰了我再改成五星,謝謝。

 

Python 分析 9 萬條彈幕 

誰纔是真正的 C 位一姐?

 

我們統計了芒果 tv 第一期的彈幕數據,共 94575 條。

下面展示芒果 Tv 彈幕爬蟲部分代碼,分析部分代碼暫略。數據獲取的具體思路如下:

  1. 分析網頁,彈幕數據是動態加載的,因此通過 Chrome 瀏覽器進行抓包分析並獲取真實的 URL 請求地址;

  2. 使用 selenium 請求網頁數據;

  3. 使用正則表達式 re 將文本中的 HTML 提取出來,使用 json 進行解析;

  4. 使用 pandas 進行數據的保存。

一、彈幕在哪裏找?

打開《乘風破浪的姐姐》選取一集,觀看我們要抓取的彈幕,可以看出彈幕是在視頻播放之後才滾動加載的,所以我們可以判斷視頻是通過 JS 異步加載的。

按照經驗,我們切換到 network-XHR 下面查看,如下圖所示,很容易發現了彈幕請求的地址:

https://bullet-ws.hitv.com/bullet/2020/06/21/104556/8337559/0.json

其中:2020/06/21 代表日期,104556 和 8337559 參數每集不一樣,通過抓包獲取即可。

二、獲取並解析數據

具體代碼如下:

# 導入包
import pandas as pd
import time
import re
import json
from selenium import webdriver

# 打開Chrome(需配置webdriver)
browser = webdriver.Chrome()

def get_mgtv_danmu(month_num, day_num, num1, num2):
    step = 1
    df_all = pd.DataFrame()

    while True:
        try:
            # 第一集URL
            danmu_url = 'https://bullet-ws.hitv.com/bullet/2020/{}/{}/{}/{}/{}.json'.format(month_num, day_num, num1, num2, step)

            # 打印進度
            print('正在獲取第{}頁的信息'.format(step))
            step += 1
            # 獲取彈幕
            browser.get(danmu_url)

            # 休眠3秒
            time.sleep(3)

            # 提取數據
            pattern1 = re.compile(r'<html><head></head><body><pre style="word-wrap: break-word; white-space: pre-wrap;">')
            pattern2 = re.compile(r'</pre></body></html>')

            data1 = re.sub(pattern1, '', browser.page_source)
            data2 = re.sub(pattern2, '', data1)

            # 解析數據
            js_data = json.loads(data2)

            # 獲取數據
            all_data = js_data['data']['items']

            # id
            danmu_id = [i.get('id') for i in all_data]
            # uname
            uname = [i.get('uname') for i in all_data]
            # 內容
            content = [i.get('content') for i in all_data]
            # 時間
            danmu_time = [i.get('time') for i in all_data]
            # 點贊
            up_count = [i.get('v2_up_count') for i in all_data]
            # 分鐘
            danmu_minites = step-1

            # 保存數據
            df_one = pd.DataFrame({
                'danmu_id': danmu_id,
                'uname': uname,
                'content': content,
                'danmu_time': danmu_time,
                'up_count': up_count,
                'danmu_minites': danmu_minites
            })

            # 循環追加
            df_all = df_all.append(df_one, ignore_index=True)

        except Exception as e:
            print(e)
            print('沒有此頁面, 爬蟲結束')
            break

    return df_all

if __name__ == '__main__':
    # 
    df_1 = get_mgtv_danmu(month_num='06', day_num='21', num1=104556, num2=8337559)

獲取的數據以數據表的形式存儲,如下所示:

df.head()

結論部分

選手彈幕熱度排名

在排名數據上,佔據前四位的分別是寧靜、萬茜、吳昕和張雨綺。

下面,分別看到她們的個人彈幕詞雲圖。

寧靜 - 彈幕詞雲

喜歡寧靜的,都喜歡她那種強大的大姐大氣場,感覺靜姐這哪裏是來出道當女團的,明明是來選妃的。

萬茜 - 彈幕詞雲

再看到萬茜,淡雅的性格配上努力勤奮換來的過硬實力,在節目裏,萬茜也堪稱人氣王,除了觀衆愛她,姐姐們也都愛她。關於她的彈幕都是各種 "喜歡"、"可愛"、"性格圈粉" 等等。

吳昕 - 彈幕詞雲

吳昕這次在節目中給了人眼前一亮的感覺,不再是快樂家族中沒啥臺詞的小透明,從用心準備的節目,到談吐性格都讓人感覺十分舒服,非常圈粉。

張雨綺 - 彈幕詞雲

最後再看到張雨綺,她真的是反差萌擔當了,以爲是高冷霸總,結果卻是個可愛憨憨,從賽前採訪就開始搞笑。帶來的節目是《粉紅色的回憶》,理由是這是自己唯一能唱完的歌,也是十分可愛了。

結語:

這麼多個性十足的姐姐們真是讓人愛了愛了,特別是《乘風破浪的姐姐》的開場旁白,非常讓人印象深刻:

三十而勵!三十而立!三十而驪!

30 歲以後,人生的見證者越來越少,但還可以自我見證!

30 歲以後,所有的可能性不斷褪卻,但還可以越過時間,越過自己!

不要輕易用年齡定義自己,只要有追逐夢想的心,無論什麼年齡段都有屬於自己的精彩!

《乘風破浪的姐姐》數據 + 代碼:

鏈接: https://pan.baidu.com/s/12XsJ-GrzagDU3LdI5nrsOA

提取碼: ywv8

---

由 GitHubDaily 原班人馬打造的公衆號:GitCube,現已正式上線!
接下來我們將會在該公衆號上,爲大家分享優質的計算機學習資源與開發者工具,堅持每天一篇原創文章的輸出,感興趣的小夥伴可以關注一下哈!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章