豆瓣電影知識圖譜 Neo4j

原創

2019-04-08 22:09

轉載自公衆號：python-china

作者想學習知識圖譜，奈何沒有數據，只能自己找。於是選擇了豆瓣電影。網址：

https://movie.douban.com/top250?start=0&filter=

一、分析問題

豆瓣電影Top250主頁面看着信息比較完整，仔細看會發現主演內容不全，查看網頁源代碼

直接爬取主頁面，主演內容會獲取不全。於是想到進入每個電影的詳細頁面進行爬取，打開第一個電影，可以看到如下。

信息比較全，所以決定數據從電影詳細頁爬取。
構建知識圖譜首先選擇所要存儲的字段。經過考慮和大家的興趣，主要探索導演、演員、電影的關係，再加上電影類型。所以確定所要爬取的字段爲

電影名稱
導演
演員
電影類型

本文的操作過程步驟如下：
第一步：從主頁爬取到每個電影詳細頁的地址，進行存儲
第二步：讀取第一步中電影地址列表，依次爬取每個電影的信息，進行存儲
第三步：對爬取的電影數據提取整合出知識圖譜的結點和關係
結點：

電影結點（電影ID，電影名稱，標籤）
導演結點（導演ID，導演名稱，標籤）
演員結點（演員ID，演員名稱，標籤）
類型結點（類型ID，類型名稱，標籤）

關係：

導演——電影關係（導演）
演員——電影關係（出演）
導演——演員關係（合作）
電影——類型關係（屬於）

第四步：將結點和關係導入Neo4j，生成圖譜

二、爬取數據

一開始用的Scrapy框架爬取，獲取電影URL比較簡單，獲取到的URL爲下面樣式：

下面對電影詳細頁進行爬取。

一開始繼續使用scrapy，弄了半天，發現電影、導演、類型都爬下來了，可是演員怎麼都獲取不到。後來才注意到演員是JS動態生成的，真是浪費感情了。於是使用requests+BeautifulSoup來爬取數據。

代碼如下：

讀取詳細頁URL列表

遍歷URL列表，爬取每個頁面信息，將每個頁面的信息存儲在results列表

將爬取結果導出到CSV文件

導出的文件如下：

三、生成結點和關係

數據有了，下一步就是整理出所需要的可以直接導入到Neo4j的結點和關係文件。
結點：

電影結點（電影ID，電影名稱，標籤）
導演結點（導演ID，導演名稱，標籤）
演員結點（演員ID，演員名稱，標籤）
類型結點（類型ID，類型名稱，標籤）

提取結點的主要代碼如下：

下面主要獲得電影、導演、演員、類型的集合，方便ID編碼

下面生成電影、導演、演員、類型的ID

拼接結點數據

生成結點文件

關係：

導演——電影關係（導演）
演員——電影關係（出演）
導演——演員關係（合作）
電影——類型關係（屬於）

讀取以上生成的結點文件

遍歷文件，拼接出關係表，主要代碼如下：

導出到CSV

這樣所需要的結點和關係文件就生成好了

director.csv文件格式如下：

relationship_director_film.csv文件格式如下：

四、導入Neo4j，生成圖譜

使用如下語句導入

需要注意的是，這種導入方式需要保證你的數據庫中沒有movie.db，否則會報錯。因爲Neo4j默認的數據庫爲graph.db，所以導入成功後，需要修改neo4j.conf文件，才能查看剛纔生成的數據庫。修改如下：

重新啓動Neo4j後，你就會看到你的數據了。
我們來查看一下效果。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Python的while循環

1.while循環的格式 while 條件: 條件滿足時，做的事情1 條件滿足時，做的事情2 條件滿足時，做的事情3 ...(省略)... demo

2023-10-10 11:37:31

python初識第二天

認識現實世界與虛擬世界的橋樑感受python帶來的魔力數據類型 Python裏，最常用的數據類型有三種——字符串(str)、整數(int)和浮點數(float) 字符串，字符串英文string，簡寫str 字符串的識別方式非常簡單—

2023-02-01 22:01:30

Python 的十大特性

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

Rupam Choudhary

2021-12-16 16:04:03

Python開發工程師[金融方向] Remote/Singapore (20k - 45k)

簡單介紹：要做的事：同交易員一起開發交易相關係統；能力要求：能獨立解決問題，完成項目開發，有較強的學習能力（技術和業務）品格正直，較強的心裏承壓能力；職業前景：能提供給你完全不同於互聯網公司的報酬上限，職業途徑；與一流交易員溝通機會，瞭解他

2021-12-09 17:53:05

JavaScript 瀏覽器統治地位不保？Python 有望取代

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-12-02 17:58:57

懶人暢聽網，有聲小說類目數據採集，多線程速採案例，Python爬蟲120例之23例

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

梦想橡皮擦

2021-11-23 11:18:54

令人不悅的–requests.exceptions.ProxyError

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-11-19 18:03:59

誰有粉？就爬誰！他粉多，就爬他！Python 多線程採集 260000+ 粉絲數據

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

梦想橡皮擦

2021-11-19 11:53:49

PHP正在“殺死”Python

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-11-11 15:58:55

2021年Python的好與壞

{"type":"doc","content":[{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","text":"摘要"}]},{"t

2021-11-11 10:53:54

如何使用Python進行超參調參和調優

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

Nikola M. Zivkovic

2021-10-29 10:13:57

許式偉：Go+ Together丨Go+ 1.0 發佈會乾貨分享

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-10-19 18:18:55

這篇 python 文章，是過去你錯過的 python 細節知識點，滾雪球第4季第15篇

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

梦想橡皮擦

2021-10-15 16:03:54

1. 滾雪球學Python第四季開啓，一需三喫，Python 函數式編程初識，面向過程，面向對象，函數式

{"type":"doc","content":[{"type":"blockquote","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null

梦想橡皮擦

2021-10-14 10:33:53

微信迴應用戶相冊問題；IBM 強制員工打疫苗；Win 11、Android 12正式發佈；Facebook 宕機 6 小時；喬布斯去世十週年；微軟開放第三方商店入駐

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-10-11 09:03:55

24小時熱門文章

最新文章

最新評論文章