Python爬蟲豆瓣國產電視劇

開發工具

**Python版本:**3.6.4
相關模塊:
pyecharts模塊;
selenium模塊;
以及一些Python自帶的模塊
其他:
chromedriver。

豆瓣國產電視劇相關文件

關注並轉發後私信回覆“豆瓣國產”獲取。

開發環境

安裝Python並添加到環境變量,pip安裝需要的相關模塊即可。

原理簡介

一. 數據爬取
首先,我們來採集一下豆瓣裏的國產電視劇基本信息,包括電視劇名、豆瓣評分和豆瓣詳情頁鏈接,如下圖所示:

用Selenium爬的,代碼實現起來很簡單:

然後根據上面爬取到的國產電視劇基本信息,來爬取每部國產電視劇的詳細信息:

代碼依舊很簡單,用XPath提取的信息(T_T我儘量每次用不同的方法來爬數據):

最後大概爬了幾千條數據吧。
二. 數據處理與可視化
老規矩,還是利用pyecharts來實現爬取到的數據的可視化分析。
That’s all,完整源代碼詳見相關文件。

結果展示

一. 數據爬取
運行Spider1.py文件即可爬取豆瓣裏的國產電視劇基本信息;
運行Spider2.py文件即可爬取每部國產電視劇的詳細信息。
最後獲得的數據大概就這麼多:

二. 數據處理與可視化
注:因爲爬到最後被豆瓣給禁了,所以部分數據有丟失。
(1)TOP/BOTTOM10
首先讓我們來看看國產電視劇裏豆瓣評分TOP10和BOTTOM10吧:

上面的數據應該還是可以看出點東西的吧,具體什麼東西就不講了。BOTTOM10就不管了,估計會辣眼睛。我們來看看TOP2在豆瓣裏的介紹是什麼唄:
走向共和-9.7:
“19世紀末到20世紀初,這當中的二三十年說短不短說長也不長。對於中國,則是風雲變化的幾十年。在這當中,中國自二次鴉片戰爭後,又經歷了洋務運動、甲午戰爭、戊戌變法、辛亥革命、二次革命等。其中,中國結束了清朝的統治,走向了民國;新思潮開始傳來,舊制度漸漸走向衰退。千瘡百孔的中國也正向着更光明的明天前進着。
在這二三十年的歷史河流中,留下了許多亦正亦邪的人物,慈禧太后(呂中 飾)、李鴻章(王冰 飾)、袁世凱(孫淳 飾)、孫中山(馬少驊 飾)等他們被記載在歷史課本里,和中國的歷史相掛鉤。藉由這部劇,讓我們再回顧一下那個時代,那個風起雲涌變化萬千的時代。前路雖然艱辛,但我們也正一步步向前邁進。”
大明王朝1566-9.7:
“本劇講述的是嘉靖與海瑞的故事。嘉靖三十九年,貪墨橫行、民不聊生。奸臣嚴嵩(倪大紅 飾)黨羽密佈、權傾朝野,清官海瑞(黃志忠 飾)不懼強權,敢於向腐朽封建的皇權發起挑戰。皇帝朱厚熜(陳寶國 飾)練道修玄二十載,始終把控着大明朝的軍政、經濟大權。當時的中國經濟發達,市井文化也算繁榮,但社會各階層矛盾突出,國家大面積實施的土地兼併使千百萬農民一夜之間失去了賴以生存的土地。嚴嵩的專權引起了地方各級官員的不滿,“倒嚴”之聲甚囂塵上,從上至下、從裏到外,從朝廷到地方官府,到處充斥着爾虞我詐、勾心鬥角的血雨腥風。忠臣良將與亂臣賊子紛紛登上了當時的歷史舞臺。”

(2)電視劇類型

劇情爲主唄,然後就是愛情、古裝這些類型的電視劇比較多咯~
(3)看看演員和導演們唄
本來想統計一下每個演員主演的所有電視劇的平均得分的(當然還有統計一下導演的),但是感覺有點得罪人,所以還是統計一下每個演員/導演出演/拍電視劇的次數吧(TOP20):

源代碼和數據都在相關文件裏附了~

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章