要說今年最出圈的詞彙,《你好,李煥英》絕對算是最熱的黑馬之一。不鳴則已,一鳴驚人,這部優秀的作品更是讓賈玲榮獲“全球票房最高女導演”的稱號。
(圖片來自於“貓眼”程序)
要從感情上分析這部電影爲什麼能取得如此成功,想必大家已經看得很多,今天我們從數據分角度出發,用Python分析一下這位春節檔的最大贏家——《你好,李煥英》!
首先,我們要簡單使用Python爬取豆瓣的短評數據。目前這部劇豆瓣上共有612433人進行評分,分數爲8.1分,這種評分在國產劇中是很優秀的成績了。
這裏我們使用requests並搭配xpath來爬取豆瓣評價以及評論者的個人信息。
from lxml
import etree
import requests
靜待十幾秒,就成功獲取了500條豆瓣評論數據👇
簡單篩選,我們就可以從500條數據統計出主演提及次數,並利用pyecharts製作條形圖。
bar = (Bar()
.add_xaxis(x_df)
.add_yaxis('提及次數', y_df)
.set_global_opts(title_opts=opts.TitleOpts(title='《你好,李煥英》豆瓣評論中的主演提及次數')
,visualmap_opts=opts.VisualMapOpts())
)
bar.render_notebook()
我們通過排序可以發現,賈玲飾演的自己,張小斐飾演的李煥英是觀衆評論提及最多的角色。
我們還可以用pyecharts來製作map地圖,來展示評論者的地域分佈:
可以看到,豆瓣上給《你好,李煥英》評分的觀衆中,來自北京市的最多!
最後我們再利用stylecloud製作一個詞雲圖,看看大家主要都在評論些什麼?
stylecloud.gen_stylecloud(text=' '.join(text),
collocations=False,
icon_name='fas fa-chart-pie',
size=600,
output_name='./評論詞雲圖.png')
Image(filename='./評論詞雲圖.png')
結果如下:
豆瓣評論中主要圍繞的關鍵詞有"母親"和"女兒",以及對應的角色"賈玲"和"李煥英"。除此以外,"沈騰"、"穿越"、"反轉"、"結尾"、"小品"等關鍵詞也被多次提到。
上文就是我們用Python分析一下《你好,李煥英》這部叫好又叫座的電影了。
不過只是使用 Python 簡單給你演示一下數據分析的魅力,後續我們其實還能做深入的數據挖掘。而且,實際上數據分析除了獲取數據,存儲數據,還需要會對數據進行預處理,提取,然後分析,統計,報告等操作。
如果你對使用 Python 數據分析感興趣,想要拿到一份薪資不錯的工作,但是目前還有些許茫然,有很多不清楚的地方,比如數據分析的學習路徑是怎麼樣的?如何製作精美的可視化視圖?如何進行股票量化等等?
大家按照以下步驟,獲取我特意挑選出來的書籍、視頻。
1、掃二維碼免費報名課程(限時300個名額)
2、報名成功後添加小助手即可免費領取資料
流程解析:5個關鍵步驟,掌握核心方法 過程處理:2個關鍵工具,提升工作效率 實戰項目:二手車網站數據爬取+可視化
4個案例,用Python實現【交互式可視化報表】
入門級圖表:用Python快速實現
進階交互圖:股票價格走勢
動態趨勢圖:電商直播分析
地圖效果圖:銷售數據彙總
場景工具:利用pandas工具分解KDJ指標構成
流程處理: 交易數據爬取,業務場景分析建模和可視化
分析結果:用KDJ指標模型對比特幣行情買賣點搜索&交易回溯
實戰項目:掌握根據數據指數和分析工具尋找虛擬貨幣買賣原理
大家按照以下步驟,獲取我特意挑選出來的書籍、視頻。
1、掃二維碼免費報名課程(限時300個名額)
2、報名成功後添加小助手即可免費領取資料
本文分享自微信公衆號 - IT共享之家(info-share)。
如有侵權,請聯繫 [email protected] 刪除。
本文參與“OSC源創計劃”,歡迎正在閱讀的你也加入,一起分享。