谷歌GDELT數據下載代碼

原創

MoonBreeze_Ma

2020-02-21 05:45

在上一篇博客中，我對GDELT數據進行了說明，在這篇文檔中直接上代碼，有需要的可以直接使用並下載數據，有問題歡迎留言。

GDELT提供了好幾種數據，包括gkg、event、mentions等數據，我在代碼中下載的是event數據，可以自己修改原始鏈接，代碼應該可以通用，原理是一樣的。

需要注意，數據量較大，截止到2017.7.18全部下載下來需要150多GB，所以下載的時候最好下載到硬盤中，免得電腦內存不足。

#-*-coding:utf-8-*-
import requests
from bs4 import BeautifulSoup
import datetime, time
import zipfile
import sys
import multiprocessing
import random
import os

path = sys.path[0] +'/'

def get_url_list(url):
    '''獲取頁面下的所有url，保存到url_list.txt中，並返回url_list'''
    html = requests.get(url).text
    soup = BeautifulSoup(html, 'lxml')
    url_list = []
    for li in soup.body.ul.find_all('li'):
        href = 'http://data.gdeltproject.org/events/' + li.a['href']
        url_list.append(href)
    print len(url_list)
    new_url_list = url_list[3:-1] #前三個url和最後一個不是我們需要的數據，故跳過
    f = open(path + 'url_list.txt', 'w')
    for url in new_url_list:
        f.write(url)
        f.write('\n')
    return new_url_list

def get_url_data(url):
    filename = path + url.split('/')[-1]
    try:
        data = requests.get(url)
        t = random.random()
        #因爲文件較多，所以選擇隨機輸出url，便於掌握運行情況
        if t > 0.5:
            print url
        with open(filename, "wb") as code:
            code.write(data.content)
        fz = zipfile.ZipFile(filename, 'r')
        fz.extract(fz.namelist()[0], path) #解壓下載下來的zip文件夾
        if os.path.exists(filename):
            os.remove(filename) #刪除zip文件夾，只保存解壓後的數據
    except Exception, e:
        print Exception, e
        log = open(path + 'log.txt', 'a')
        log.write(url)
        log.write('\n')
    time.sleep(3)

if __name__ == '__main__':
    stime = datetime.datetime.now()
    print stime
    url = 'http://data.gdeltproject.org/events/index.html'
    url_list = get_url_list(url)
    pool = multiprocessing.Pool() #開啓進程池，使用多進程提高下載速度
    pool.map(get_url_data, url_list)
    etime = datetime.datetime.now()
    print etime
    print etime - stime