在上一篇博客中,我對GDELT數據進行了說明,在這篇文檔中直接上代碼,有需要的可以直接使用並下載數據,有問題歡迎留言。
GDELT提供了好幾種數據,包括gkg、event、mentions等數據,我在代碼中下載的是event數據,可以自己修改原始鏈接,代碼應該可以通用,原理是一樣的。
需要注意,數據量較大,截止到2017.7.18全部下載下來需要150多GB,所以下載的時候最好下載到硬盤中,免得電腦內存不足。
#-*-coding:utf-8-*-
import requests
from bs4 import BeautifulSoup
import datetime, time
import zipfile
import sys
import multiprocessing
import random
import os
path = sys.path[0] +'/'
def get_url_list(url):
'''獲取頁面下的所有url,保存到url_list.txt中,並返回url_list'''
html = requests.get(url).text
soup = BeautifulSoup(html, 'lxml')
url_list = []
for li in soup.body.ul.find_all('li'):
href = 'http://data.gdeltproject.org/events/' + li.a['href']
url_list.append(href)
print len(url_list)
new_url_list = url_list[3:-1] #前三個url和最後一個不是我們需要的數據,故跳過
f = open(path + 'url_list.txt', 'w')
for url in new_url_list:
f.write(url)
f.write('\n')
return new_url_list
def get_url_data(url):
filename = path + url.split('/')[-1]
try:
data = requests.get(url)
t = random.random()
#因爲文件較多,所以選擇隨機輸出url,便於掌握運行情況
if t > 0.5:
print url
with open(filename, "wb") as code:
code.write(data.content)
fz = zipfile.ZipFile(filename, 'r')
fz.extract(fz.namelist()[0], path) #解壓下載下來的zip文件夾
if os.path.exists(filename):
os.remove(filename) #刪除zip文件夾,只保存解壓後的數據
except Exception, e:
print Exception, e
log = open(path + 'log.txt', 'a')
log.write(url)
log.write('\n')
time.sleep(3)
if __name__ == '__main__':
stime = datetime.datetime.now()
print stime
url = 'http://data.gdeltproject.org/events/index.html'
url_list = get_url_list(url)
pool = multiprocessing.Pool() #開啓進程池,使用多進程提高下載速度
pool.map(get_url_data, url_list)
etime = datetime.datetime.now()
print etime
print etime - stime