20000條數據告訴你,如何正確觀看“高逼格”百老匯音樂劇

美國百老匯,歌劇迷們的天堂,從《貓》到《歌劇魅影》再到《媽媽咪呀》,每一部經典作品都享譽世界。如果你想去紐約一睹百老匯的華美,就需要讀一讀這篇給旅行者的百老匯音樂劇指南。數據俠Zhenggang Xu通過爬取旅遊網站Tripadvisor上百老匯歌劇點評數據,進行深入分析,結果發現了很多有價值的洞察,快跟着Zhenggang Xu的圖文了解百老匯音樂劇的祕密吧!

▍項目構想

百老匯是紐約最著名的標誌性景點之一。2017到2018年間,就有1380萬人觀看了百老匯演出,而這個數字已經是紐約人口的1.6倍。數據顯示,60%的購票者是來紐約旅行的遊客,因此,瞭解他們對百老匯節目的看法一定很有趣。這其中是否有什麼相似的範式?能否用來幫助未來的遊客?

爲此,我對旅遊網站Tripadvisor上最受歡迎的百老匯音樂劇的評論進行了研究,它可能並不是最全面和專業的評論音樂劇的網站,但是上面旅行者的一些反饋是很真實的,當地人可能並不會在上面發表評論,所以如果你也是遊客,這些評論可能會有幫助。

(圖片說明:Tripadvisor網站上的歌舞劇頁面)

▍方法論

我使用了Python的Scrapy包來進行數據爬取。我選擇了最受歡迎的10部百老匯音樂劇,並收集了它們對應的用戶評論,以及一些用戶信息。對於那些評論數超過5000條的劇目,我只收集了其中一半的評論。最終,整個項目共爬取了大約20000個評論。基於這些數據我完成了我的分析。

▍分析

評論者

我首先對用戶的評論數以及這些評論獲得的打分(這證明這些評論是有幫助的)進行分析,繪製了對應的分佈圖。由於評論大多來自普通遊客,打分也就不會受到所謂遊客是否有名的影響。如我們在圖中所看到的,大部分用戶發佈的評論少於10條,並且沒受到多少其他用戶的認可。只有一小部分人屬於很頻繁的評論者,我設計了一個叫做“評論質量”的度量標準(也就是認爲這個評論有幫助的投票/該用戶提交的所有評論)來簡單地對用戶評論進行量化(低、中和高質量三類),並且也給挑選出的音樂劇的打分算出一個平均值。

(圖片說明:評論數與分數分佈圖,平均打分分數vs.打分質量的柱狀圖)

於是,得出一個明顯的趨勢。可能這背後有兩個原因,也許人們更傾向於認爲包含一些批評的評論會更值得信賴,或者那些經常評論的人會更加挑剔。

季節性特徵

之後我研究了具體不同月份的評論數,在下面的柱狀圖裏可以清晰看到它們的趨勢。在節日季結束後,2月份的評論數會急劇下滑。如果假設評論數與觀衆數相關,那麼則表明百老匯來自遊客的觀衆數在2月會觸底,在春季會漸漸恢復,在7月達到巔峯。因爲紐約是暑期遊客旅行的目的地。下半年會有些波動,但整體良好。

(圖片說明:按月度統計的評論數量)

觀察上圖,我好奇遊客的行爲是否有相似的一些模式(比如滿意度等),是否有最佳觀看時間。仔細觀察打分情況,全年波動並不大。也就是說對於遊客的一個好消息是:你在全年任意時間去百老匯都可以獲得相同的體驗。

也許你也注意到,整體的觀看數很高。因爲這是數據樣本的問題,這裏面有強烈的“倖存者偏差”。百老匯是世界最頂級的舞臺,競爭最激烈,能在這樣的競爭中“倖存”下來的節目本來就是最強者,每年只有20%的節目能達到收支平衡。因此,我們挑選的最受歡迎的節目,必然在很多方面都表現突出,這樣才能夠吸引全世界的遊客前來觀看。

(圖片說明:按月份統計的歌劇評分分數)

而我試圖解答的另一個問題是,這些評論裏是否只有讚美而缺少不同的見解。事實並不如此,下面我使用圖雲的方式來分析相關的評論。

評論分析

首先我將所有評論製作了一個圖雲。

從裏面可以看到很多關鍵詞,比如表演、歌曲、故事、演員等等。但是很難從中找到什麼相似的範式。我們需要對單個的劇目進行分析。

首先我們看看Come from away這部劇,它去年三月登陸百老匯,並在Tripadvisor上獲得最高評價。它根據9-11事件後一個星期,發生在遠離美國的一個加拿大小鎮的真實故事改編,它希望讓人們在最黑暗的時刻也不要忘記希望。

(圖片說明:Come from away的評論詞雲)

從這個詞雲中,可以看到,故事是最重要的關鍵詞。說明觀衆關注的是故事本身。而音樂和演員也受到很多關注。這部劇沒有過多的道具,太浮華的舞臺,它最吸引人的就是他講故事的方式,十幾個演員講述了一個溫暖人心的故事。

接下來,我們分析了歌劇魅影,這個百老匯演出歷史最久的音樂劇之一。從詞雲來看,人們對它的音樂最爲着迷,許多人,包括我自己正是因爲它而喜歡上了音樂劇。令人驚訝的是,人們還多次提到“座位”這個詞,也許是因爲它的演出場地Majestic Theartre是個巨大的劇院,你坐在哪裏會直接影響你的觀影體驗。與Come from away形成鮮明對比,《歌劇魅影》的觀衆不怎麼關注故事,演員、音樂成爲最重要的因素。

(圖片說明:《歌劇魅影》的評論詞雲)

下面的詞雲來自劇目《獅子王》。

(圖片說明:《獅子王》的評論詞雲)

儘管獅子王的音樂也非常出色,而且它的故事也是每個人都耳熟能詳的,但這卻都不是人們關注的焦點。服裝成爲評論最多的關鍵詞。這也確實是它成功的關鍵。音樂和故事對觀衆來說不再是什麼新鮮事之後,華麗的服裝再次吸引了觀衆,尤其是小朋友。坐在劇院裏與看電視的體驗完全不同。除此之外,門票多次出現,可能是因爲它的價格通常都很昂貴。

(圖片說明:《漢密爾頓》的評論詞雲)

接下來是近年來最出名的劇目——《漢密爾頓》。人們爲何喜歡它?如果你以爲是因爲它的音樂、歷史、故事甚至裏面的說唱,那你就錯了。實際上,門票依然是關注最多的詞。在我看來,這部劇的確是天才之作,但是當人們更多關注的是門票而不是節目本身時,我想它並不是件好事。

如果我們把這四個詞雲放在一起看:

可以很容易看到,這四個劇目在評論中有完全不同的關鍵詞。百老匯劇目種類多樣,觀衆總能找到自己喜歡的劇目,不過,音樂依然是所有劇目中都重要的元素。

此外,如果劇目是在更大的劇院演出,那麼人們就會更多地提到座位這個關鍵詞。同樣,如果票價越貴,人們也會更多地關注門票。對比來看,Come from away 的觀衆就可以更集中關注劇目本身,而其他的劇目,觀衆可能就會被其他因素分心。

我們已經分析了大部分的點評,他們普遍偏正向,那麼那些批評的評論是什麼樣的呢?下面是負面評論的一個簡單的詞雲(打分在1和2分的評論)。

(圖片說明:所有數據中負面評論的詞雲)

我們可以看到,除了對票價的不滿,候補演員(understudy)也被提及了很多次。我不認爲是候補演員一定就表演不好,但當人們沒能看到自己喜歡的演員時,他們自然會感到不滿。而且,當你把高票價也考慮進內,這肯定加劇了大家不滿的情緒。我仔細看了一些評價,不少人抱怨自己花了高價但最後卻看的是候補演員的表演。所以大家決定前應該做些功課,看一看演員名單。

▍總體

從這個小研究可以得到幾個結論:

1.百老匯的演出豐富多樣,你總能找到你的菜。在購票前需要做一些功課,確定你最喜歡的演員的排期。

2.如果你已經花費了一大筆錢買機票,訂酒店來到紐約,那麼你就別期待在百老匯上節約多少錢了。很多的劇院,不同價位的位置帶來的觀影體驗完全不同。你一定不想最後成爲那個在tripadvisor上評論稱“我本應該買個更貴的座位”的人。

注:本文編譯自紐約數據科學院博客Traveler’s Guide to Broadway Musicals,點擊“閱讀原文”查看。內容僅爲作者觀點,不代表DT數據俠立場。文中圖片部分來自作者。

作者 | Zhenggang Xu

題圖 | 站酷海洛

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章