一般電影公司製作一部新電影推向市場時,要想獲得成功,通常要了解電影市場趨勢,觀衆喜好的電影類型,電影的發行情況,改編電影和原創電影的收益情況,以及觀衆喜歡什麼樣的內容。
所以本文就依樣畫葫蘆來做一個有關電影行業的數據分析。(電影行業我不是專業,重在讓大家學習一個過程)
源碼下載地址見文末。
一、提出問題
本案例來源於kaggle上的TMDB 5000 Movie Dataset數據集,爲了探討電影數據可視化,爲電影的製作提供數據支持,主要研究以下幾個問題:
電影類型如何隨着時間的推移發生變化的?
電影類型與利潤的關係?
Universal和Paramount兩家影視公司的對比情況如何?
改編電影和原創電影的對比情況如何?
電影時長與電影票房及評分的關係?
分析電影關鍵字
二、理解數據
1、採集數據
從kaggle上的TMDB 5000 Movie Dataset下載數據集:
https://www.kaggle.com/tmdb/tmdb-movie-metadata
2、導入數據
3、查看數據集信息
下面是moviedf數據集中部分字段的含義介紹:
id:
標識號
imdb id:IMDB標識號
popularity:
在Movie Database上的相對頁面查看次數
budget:
預算(美元)
revenue:
收入(美元)
original_title:
電影名稱
cast:
演員列表,按|分隔,最多5名演員
homepage:
電影首頁的URL
director:
導演列表,按|分隔,最多5名導演
tagline:
電影的標語
keywords:
與電影相關的關鍵字,按|分隔,最多5個關鍵字
overview:
劇情摘要
runtime:
電影時長
genres:
風格列表,按|分隔,最多5種風格
production_companies:
製作公司列表,按|分隔,最多5家公司
release_date:
首次上映日期
vote_count:
評分次數
vote_average:
平均評分·release year:
發行年份
三、數據清洗
1、先將credits數據集和moviedf數據集中的數據合併在一起,再查看合併後的數據集信息:
2、選取子集
由於數據集中包含的信息過多,其中部分數據並不是我們研究的重點,所以從中選取我們需要的數據:
由於後面的數據分析涉及到電影類型的利潤計算,先求出每部電影的利潤,並在數據集moviesdf中增加profit數據列:
3、缺失值處理
通過上面的數據集信息可以知道:整個數據集缺失的數據比較少
其中release_date(首次上映日期)缺失1個數據,runtime(電影時長)缺失2個數據,可以通過網上查詢補齊這個數據。
填補release_date(首次上映日期)數據:
找出runtime(電影時長)缺失的數據:
填充runtime缺失值:
4、數據格式轉換
genres列數據處理:
release_date列數據處理:
四、數據分析及可視化
問題一:電影類型如何隨着時間的推移發生變化的?
1、建立包含年份與電影類型數量的關係數據框:
2、數據可視化
繪製各種電影類型的數量柱狀圖:
繪製各種電影類型佔比的餅狀圖:
分析結論:
從上面的結果可以看出,在所有的電影類型中,Drama(戲劇)類型電影最多,佔所有電影類型的18.9%,其次爲Comedy(喜劇),佔所有電影類型的14.2%。
在所有電影類型中,電影數量排名前5的電影類型分別爲:
Drama(戲劇)、Comedy(喜劇)、Thriller(驚悚)、Action(動作)、Romance(冒險)。
3、電影類型隨時間變化的趨勢分析:
分析結論:
從圖中觀察到,隨着時間的推移,所有電影類型都呈現出增長趨勢,尤其是1992年以後各個類型的電影均增長迅速,其中Drama(戲劇)和Comedy(喜劇)增長最快,目前仍是最熱門的電影類型。
問題二:電影類型與利潤的關係?
先求出各種電影類型的平均利潤:
電影類型平均利潤數據可視化:
分析結論:
從圖中觀察到,拍攝Animation、Adventure、Fantasy這三類電影盈利最好,而拍攝Foreign、TV、Movie這三類電影會存在虧本的風險。
問題三:Universal Pictures和Paramount Pictures兩家影視公司發行電影的對比情況如何?
Universal Pictures(環球影業)和Paramount Pictures(派拉蒙影業)是美國兩家電影巨頭公司。
1、查看 Universal Pictures和Paramount Pictures兩家影視公司電影發行的數量
先對production_companies列數據進行處理:
查詢production_companies數據列並統計Universal Pictures和Paramount Pictures的數據:
使用餅狀圖比較兩家公司發行的電影占比:
2、分析Universal Pictures和Paramount Pictures兩家影視公司電影發行的走勢
抽取相關數據列進行處理:
兩家影視公司電影發行的折線圖:
分析結論:
從圖中觀察到,隨着時間的推移,Universal Pictures和Paramount Pictures公司的電影發行量呈現出增長趨勢,尤其是在1995年後增長迅速,其中Universal Pictures公司比Paramount Pictures公司發行的電影數量更多。
問題四:改編電影和原創電影的對比情況如何?
對keywords列數據處理:
描繪柱狀圖,對改編電影與原創電影在預算、收入及利潤三方面進行比較:
分析結論:
從圖上可以看出,改編電影的預算略高於原創電影,但改編電影的票房收入和利潤遠遠高於原創電影, 這可能是改編電影擁有一定的影迷基礎。
問題五:電影時長與電影票房及評分的關係
電影時長與電影票房的關係:
電影時長與電影平均評分的關係:
分析結論:
從圖上可以看出,電影要想獲得較高的票房及良好的口碑,電影的時長應保持在90~150分鐘內。
問題六:分析電影關鍵字
先提取電影關鍵字:
通過詞雲包WordCloud生成詞雲圖:
分析結論:
通過對電影關鍵字的分析,電影中經常被提及的詞語是女性(woman)、獨立(independent),其次是謀殺(murder)、愛情(love)、警察(police)、暴力(violence),可見觀衆對女性和獨立方面題材的電影最感興趣,其次是是犯罪類和愛情類電影。
來源:數據分析不是個事兒