目錄
概述
我通過爬蟲爬取了豆瓣電影全站,一共有7w+電影數據,當然肯定有一定的遺漏,而且爬取到的很多電影數據都是0評價、0評論,這些都要清洗掉,下面開始對這個電影數據進行分析。
評分分佈情況
豆瓣電影的平均評分分佈
從圖可以看出,豆瓣電影平均評分基本符合正太分佈,6-8分左右的電影最多。
下面是具體的統計數據(這裏只統計了有效數據):
count 31920.000000
mean 6.632892
std 1.355509
min 2.000000
25% 5.900000
50% 6.800000
75% 7.600000
max 9.800000
中國大陸的豆瓣電影的平均評分分佈
從圖可以看出,中國大陸拍攝的電影在豆瓣上的平均評分明顯低於全部的電影的平均評分。
下面是具體的統計數據(這裏只統計了有效數據):
count 3681.000000
mean 5.585982
std 1.731167
min 2.000000
25% 4.200000
50% 5.700000
75% 7.000000
max 9.600000
電影年份分析
1940-2018
下面我統計了從1940-2018年的電影數量:
2000-2018
下面放大看下2000年之後的電影數量:
這裏需要注意的是2018年還沒過完,所以這裏只是到目前爲止的電影總數。
電影評分和年份的關係
總有人說現在電影越拍越差,究竟這個說法有沒有依據?
1940-2018
2000-2018
看來不是錯覺,從統計結果來看,近年來電影平均評分直線下降!
電影時長分析
不同時長電影數目統計
首先先看下電影的時長分佈情況。
這裏可以看出,大部分電影時長在90分鐘左右。
電影時長和年份關係
究竟是過去愛拍超長電影,還是現代更愛拍超長電影呢?
不出所料,過去比現在更愛拍長電影。
電影類型分析
由於一本電影可能有多種類型,這裏統計的是每個類型出現的數目(一共有16w條類型數據)。
RangeIndex: 164240 entries, 0 to 164239
Data columns (total 3 columns):
genres 164240 non-null object
rating_average 164240 non-null float64
durations 164240 non-null int64
dtypes: float64(1), int64(1), object(1)
電影類型數目統計
這裏可以看出,劇情片數目遙遙領先。
電影類型和評分的關係
電影類型跟評分有沒有關係呢?
這個有點沒想到,看來電影的類型對評分還是有不小的影響的,從統計結果來看,音樂、傳記等相對小衆的電影等受衆比較少的類型評分相對比較高,而驚悚、恐怖電影評分比較相對差,大概是部分差評國產恐怖電影拉低了評分。
電影類型和時長的關係
電影類型跟時長有沒有關係呢?
仔細一看,還是挺符合情理的,歷史、傳記之類的電影確實時間比較長!
電影出品國家分析
由於一本電影可能有多個國家,這裏統計的是每個國家出現的數目(一共有9w條國家數據)。
RangeIndex: 90555 entries, 0 to 90554
Data columns (total 2 columns):
countries 90555 non-null object
rating_average 90555 non-null float64
dtypes: float64(1), object(1)
電影出品國家數目統計
美國遙遙領先,中國大陸電影在數目上也不佔優勢。
電影出品國家和評分的關係
蘇聯高居榜首,中國大陸墊底。
各項評分、評論等參數之間的相關性
下圖顯示的是兩個變量間的皮爾遜相關係數(兩個變量間協方差和標準差的商),越接近1代表正相關,越靠近-1代表越負相關,0就是代表這兩個變量間增長沒有任何關係,“rate”
表示評分(10分滿分),“stars”
表示豆瓣星級(5星爲滿級),“1,2,3,4,5”
,分別代表“一星,二星,三星,四星,五星”佔比情況,“wish”
表示這部電影想看的人數,“collect”
表示這部電影看過的人數,“comments”
,“ratings”
分別代表這部電影的寫了短評的人數及評價了的人數(打了分就算評價,不用寫評論)。
短評數量和看過人數之間的關係
短評數量和看過人數呈正相關。
二星評分和四星評分佔比的相關性
二星評分和四星評分佔比呈負相關。