Python + Neo4j（安裝）可視化分析漫威十年人物關係圖譜

原創

LL Leung

2020-06-09 20:26

3.2 放入本地Neo4j的import文件

4 數據可視化

4.1 加載"names_message.csv"文件

4.2 加載"relation_message.csv"文件

4.3 查看人物關係圖譜

4.4 篩選人物關係

前言：

最近復聯4大火，筆者看到“法納斯特”的博客得到啓示，於是想動手做一個可視化分析漫威人物關係的知識圖譜，做一枚硬核漫威鐵粉。

1 數據爬取

1.1 漫威人物關係圖譜網站

1.網址傳送門：https://graphics.straitstimes.com/STI/STIMEDIA/Interactives/2018/04/marvel-cinematic-universe-whos-who-interactive/index.html

2.網站介紹：網站是基於Graph技術開發的，主要是關於漫威人物、漫威電影的圖譜。

3.網站一覽

首頁：

人物關係：

點擊頭像，可看到人物的詳細信息：（鋼鐵俠！！

漫威宇宙系列電影：

1.2 爬取人物關係數據

注：瀏覽器推薦使用Google Chrome。

1.打開F12調試，選擇“Network”（注意是在首頁）：

2.關鍵詞搜索（Ctrl + f），輸入“marvel-data.json”：

3.進入“marvel-data.json”，複製json接口的URL：

在這裏，我們主要需要爬取的數據是“characters”與“relationship”：

4.python代碼：

import json
import requests

headers = {
    'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'
}

url = 'https://graphics.straitstimes.com/STI/STIMEDIA/Interactives/2018/04/marvel-cinematic-universe-whos-who-interactive/data/marvel-data.json'
response = requests.get(url=url, headers=headers)
result = json.loads(response.text)

num = 0
names = []
item = {0: 'friend', 1: 'enemy', 2: 'creation', 3: 'family', 4: 'work', 5: 'love'}

for i in result['relationship']:
    subject = result['relationship'][i]['id']
    object = result['relationship'][i]['target_id']

    if subject not in names:
        names.append(subject)
    if object not in names:
        names.append(object)

    relation = int(result['relationship'][i]['relationship'])
    with open('relation_message.csv', 'a+') as f:
        f.write(subject + ',' + object + ',' + item[relation] + '\n')

for j in names:
    num += 1
    with open('names_message.csv', 'a+') as f:
        f.write(j + ',' + str(num) + '\n')

for k in result['characters']:
    id = result['characters'][k]['id']
    name = result['characters'][k]['name']
    status = result['characters'][k]['status']
    species = result['characters'][k]['species']
    with open('message.csv', 'a+') as f:
        f.write(id + ',' + name + ',' + status + ',' + species + '\n')

跑代碼之前需要先配置python環境，在這裏筆者使用的是PyCharm，PyCharm的安裝見此處：Win10環境Python+Tensorflow+Jupyter入門安裝詳解，代碼中的url即剛纔在網站上覆制的json接口。

運行完畢後會產生三個csv文件：

至此，數據爬取部分已經完成。

2 Neo4j的安裝及服務啓動

2.1 Neo4j下載安裝

1.進入官網下載：https://neo4j.com/download-center/#releases

若點擊之後網站沒有彈出下載提示，則點擊此處下載：

2.解壓安裝包：

注意：切記安裝路徑不要含任何中文字符或空格（例如文件名爲“Program Files”），否則遠程服務器訪問本地數據庫時會亂碼，導致無法讀取數據。

2.2 開啓Neo4j服務

1.管理員身份打開Windows PowerShell：

2.啓動：

Set-ExecutionPolicy -ExecutionPolicy RemoteSigned
Import-Module '（neo4j文件目錄）\bin\Neo4j-Management.psd1'
Invoke-Neo4j console

3.訪問服務器：

localhost:7474

4.輸入密碼：

初始用戶名：neo4j，初始密碼：neo4j

5.之後服務器會要求你修改密碼：

3 數據準備

生成的三個csv文件中，“names_message.csv”即角色，“relation_message.csv”即人物關係情況。

3.1 加入列名

1.在“names_message.csv”中

2.在“relation_message.csv”中

3.2 放入本地Neo4j的import文件

4 數據可視化

4.1 加載"names_message.csv"文件

LOAD CSV  WITH HEADERS FROM 'file:///names_message.csv' AS data CREATE (:people{name:data.name, id:data.id});

182個人物節點已生成。

4.2 加載"relation_message.csv"文件

LOAD CSV  WITH HEADERS FROM "file:///relation_message.csv" AS relations
MATCH (entity1:people{name:relations.subject}) , (entity2:people{name:relations.object})
CREATE (entity1)-[:rel{relation: relations.relation}]->(entity2)

1144對人物關係已建立完畢。

4.3 查看人物關係圖譜

1.取消限制（去掉"LIMIT 25"）：

運行：

2.顯示人物及關係

選擇全屏：

替換人物名稱：

替換人物關係：

4.4 篩選人物關係

1.託尼·斯達克的朋友：

match p=(n:people{name:"tonys"})-[:rel{relation:"friend"}]->() return p;

其中「thor」爲「雷神」，「stever」爲「美隊」，「blackw」爲「黑寡婦」，「vision」爲「幻視」，「peterp」爲「蜘蛛俠」，「bruceb」爲「綠巨人」

2.美隊的女友：

match p=(n:people{name:"stever"})-[:rel{relation:"love"}]->() return p;

其餘的查詢類似我們熟知的SQL語句，大家可以多多嘗試。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Python + Neo4j（安裝）可視化分析漫威十年人物關係圖譜

前言：

1 數據爬取

1.1 漫威人物關係圖譜網站

1.2 爬取人物關係數據

2 Neo4j的安裝及服務啓動

2.1 Neo4j下載安裝

2.2 開啓Neo4j服務

3 數據準備

3.1 加入列名

3.2 放入本地Neo4j的import文件

4 數據可視化

4.1 加載"names_message.csv"文件

4.2 加載"relation_message.csv"文件

4.3 查看人物關係圖譜

4.4 篩選人物關係

釘釘打卡速度慢

Nginx R31 doc 官方文檔-01-nginx 如何安裝

Python 潮流週刊#51：用 Python 繪製美觀的圖表

Qt/C++音視頻開發74-合併標籤圖形/生成yolo運算結果圖形/文字和圖形合併成一個/水印濾鏡

挑戰程序設計競賽 2.2章習題 POJ - 3617 Best Cow Line 貪心

字節面試：MySQL什麼時候鎖表？如何防止鎖表？

.NET8連接SQL SERVER 2008 R2 報：證書鏈是由不受信任的頒發機構頒發的

golang開發環境搭建(win10)

python計算機視覺學習筆記——PIL庫的用法

Golang初學：獲取程序內存使用情況，std runtime

VScode配置C/C++環境(MinGW) & 編寫運行C/C++程序(Windows)

【藍橋杯算法提高 ADV - 299】宰羊（區間 dp ）

解決Ubuntu安裝TensorFlow成功，import報錯" No module named 'tensorflow' "問題

解決import tensorflow報錯TypeError: new() got an unexpected keyword argument 'serialized_options'問題

本地提取win10隨機聚焦鎖屏壁紙 + 腳本爬取

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結