谷歌GDELT數據說明

發現有一篇文章寫的比較清晰,比我的說明要準確一點,[數據] GDELT項目介紹。最近比較忙,就先不對照兩篇文章對我的內容進行優化了,後續有機會再進行修改。
CAMEO Con ict and Mediation Event Observations Event and Actor Codebook這個文檔對GDELT中300多類事件以及各種機構組織代碼、宗教代碼、民族代碼進行了說明。
GDELT論文
2018-12-23

本文主要介紹GDELT數據以及對其58個字段進行說明,數據的下載代碼會放在我的另一篇文章中,或者也可以直接在我的代碼片中下載。


之前因爲學習需要下載了谷歌的GDELT數據,在國內也叫疙瘩湯,GDELT(www.gdeltproject.org)每時每刻監控着每個國家的幾乎每個角落的100多種語言的新聞媒體–印刷的、廣播的和web形式的,識別人員、位置、組織、數量、主題、數據源、情緒、報價、圖片和每秒都在推動全球社會的事件,GDELT爲全球提供了一個自由開放的計算平臺。

GDELT2.0每隔15分鐘提供全球事件數據。這些事件從1979年1月1日開始一直到今日。GDELT第一項服務就是免費的數據下載。同時GDELT還在谷歌的BigQuery上提供了數據API,這樣您可以使用谷歌的分析工具進行分析。GDELT的數據除了事件數據外,還提供了GKG數據,也就是全球知識圖(Global Knowledge Graph)的數據。在國內您也可以到疙瘩湯(www.gdelt.cn)上下載數據。

GDELT數據每條記錄有58個字段,字段間以’\t’分割,在讀取時需要注意,每個字段代表着不同的含義,有谷歌自動提取的時間有關的信息,事件有關對象、事件類型等,從2013.4.1開始提供新聞的網頁地址,但是不提供網頁內容,需要的可以通過鏈接自己下載,在2013.4.1之前的數據只能使用谷歌已經分析好的結果,個人覺得這個不太方便,缺少了網頁原文,很多工作都做不了,而谷歌分析的結果又是相當簡單和粗糙的,直接拿來使用價值有限。

在谷歌官網上有對這58個字段的說明,但是不全,看了提供的cookbook也不全,網上的各種資料都是對官網的內容的翻譯,當時數了好幾遍,確實很多字段是直接跳過沒有說明的,所以下面就放上我根據自己的理解和猜測補全那些缺失的解釋,不保證完全正確,權當參考。


通過上文鏈接可下載zip類型的gdelt數據壓縮包,解壓後爲csv格式,每個csv文件內的數據均有58個字段(2013年3月以前的數據僅有57個字段,4月之後爲58個字段,即多了url字段),這58個字段分爲EVENTID AND DATE ATTRIBUTES,ACTOR ATTRIBUTES,EVENT ACTION ATTRIBUTES,EVENT GEOGRAPHY,DATA MANAGEMENT FIELDS這五部分。


EVENT AND DATE ATTRIBUTES
這一部分的字段記錄了捕捉事件的全局唯一標識符號碼,事件發生的日期和日期的不同版本格式,這有助於信息被記錄在可能有特定的日期格式要求的不同的分析程序中。所包含的字段有:

A GlobalEventID:數據類型爲整數型,它是一條記錄的唯一標識符,通常它是遞增標識的。

B Day:記錄事件發生的日期,格式爲YYYYMMDD

C MonthYear:記錄事件發生的年月,格式爲YYYYMM

D Year:記錄事件發生的年份,格式爲YYYY

E FractionDate:記錄事件發生的日期,格式爲YYYY.FFFF,其中FFFF爲到該日期爲止在當前年份所佔的百分比,通過公式(MONTH * 30 + DAY) / 365進行近似計算。


ACTOR ATTRIBUTES
這一部分字段描述了事件的兩個參與者的CAMEO碼、名稱和特徵屬性。在複雜事件或僅有一個參與者的事件中另一個參與者的屬性值可能爲空,在gdelt系統無法識別參與者時參與者屬性也可能爲空。每個參與者的各項屬性在缺省的情況下也會爲空值。所包含的字段有:

F Actor1Code:參與者1的CAMEO碼。CAMEO包含一組編碼屬性指示參與者的地理、階級、民族和宗教信仰和他的角色信息(政治精英、軍官、反對派等)。每個屬性均爲3個字母的縮寫,以任何可能的順序排列組成CAMEO碼。

G Actor1Name:參與者1的名稱。對於政治領袖或組織,這將是領導人的正式名稱(如喬治·W·布什、聯合國);地理比賽將是該國或首都/主要城市名稱。

H Actor1CountryCode:參與者1國家信息的CAMEO碼(3字母縮寫),它可能爲Actor1Code中的CAMEO碼,也可能爲空。它標識了受到該事件影響的地理區域。

I Actor1KnownGroupCode:如果參與者1是一個已知的組織/非政府組織/反叛組織(如聯合國、世界銀行、基地組織等),該字段將包含其CAMEO碼。

J 10 Actor1EthnicCode:如果系統能識別出參與者1的民族信息並且該民族具有CAMEO碼,該字段將包含其CAMEO碼。 注意 :該新增字段仍處於實驗階段。

K Actor1Religion1Code:如果系統能識別出參與者1的宗教信息並且該宗教具有CAMEO碼,該字段將包含其CAMEO碼。 注意 :該新增字段仍處於實驗階段。

L 12 Actor1Religion2Code:如果參與者1包含多重宗教信息,該字段將包含其二級代碼。一些宗教將自動使用兩個代碼,如Catholic將調用Christianity作爲第一個代碼,Catholicism作爲第二個。

M 13 Actor1Type1Code:此處的三位CAMEO代碼將指代參與者1的類型或角色信息。這可能是一個特定的角色,如警察、政府、軍隊、政治反對派,反對派等,或是如教育、精英、媒體、難民這樣的廣泛的角色類型,或是有組織的團體,例如民間運動。特殊的代碼如“溫和的”和“激進的”可能指一組的操作策略。

N 14 Actor1Type2Code:如果參與者1具有多重角色,此處將包含其CAMEO碼。

O 15 Actor1Type3Code:如果參與者1具有多重角色,此處將包含其CAMEO碼。

參與者2將重複以上所有屬性。
P 16 Actor2Code
Q 17 Actor2Name
R 18 Actor2CountryCode
S 19 Actor2KnownGroupCode
T 20 Actor2EthnicCode
U 21 Actor2Religion1Code
V 22 Actor2Religion2Code
W 23 Actor2Type1Code
X 24 Actor2Type2Code
Y 25 Actor2Type3Code


EVENT ACTION ATTRIBUTES
這部分字段將包含事件行爲(即參與者1對參與者2所做的事)的各類屬性,並將提供幾種機制來評估事件的重要性和其造成的短期影響。

Z 26 IsRootEvent:此字段標識了該事件在事件流中是否處於根節點位置。

AA 27 EventCode:此字段通過CAMEO碼描述了事件參與者1對參與者2的行爲。

AB 28 EventBaseCode:這裏是一個三級分類法標識的CAMEO碼。對於第三級的事件,此處包含其二級事件的葉節點。例如編碼“0251”(“Appeal for easing of administrative sanctions”) ,此處即爲“025” (“Appeal to yield”)。對於二級事件和一級事件,此處即爲其EventCode。

AC 29 EventRootCode:與上面類似,此處標識了事件的根節點。 如“0251” (“Appeal for easing of administrative sanctions”) ,此處即爲“02” (“Appeal”)。

AD 30 QuadClass:這個字段指定事件類型主要分類,所有事件將被劃分爲以下四個分類之一:1=口頭合作,2=物質合作,3=口頭衝突,4=物質衝突。

AE 31 GoldsteinScale:每個事件將被分配一個在-10到+10之間的數值,用以衡量理論上該事件對國家產生的潛在影響。 注意 :這個分數的判定是基於事件類型而非事件的細節,因此一個10人蔘與的暴亂與一個1000人蔘與的暴亂都將獲得同樣的分數。

AF 32 NumMentions:該屬性值爲數據庫內所有文章提及該事件的次數。這可以用作評估事件的重要性的方法:討論該事件越多,越有可能是重要的。如果新聞文章發表之後這個事件引發了討論,該字段數值會進行更新(例如,一個事件在幾周後的可能引發一個輿論熱潮,會有無數的新聞文章發表提到原始新聞;在新的發展背景下,某一事件在一週年時可能會有進一步的報道)。

AG 33 NumSources:該屬性值爲所有提及該事件的數據源數值。同上一個屬性一樣,這也可以用作評估事件的重要性的方法。該屬性值也會在上文相同的情況下進行更新。

AH 34 NumArticles:該屬性值爲所有提及該事件的文章數。同上一個屬性一樣,這也可以用作評估事件的重要性的方法。該屬性值也會在上文相同的情況下進行更新。

AI 35 AvgTone:該屬性值爲所有文章提及該事件時“語氣”的平均值。分數範圍從-100(極其消極的)到+100(極積極的)。共同的價值觀分數範圍在-10和+10之間,0表示中立。這可以用作過濾事件的“上下文”的方法,從而衡量一個事件的重要性和其影響。例如,輕微負面語氣的暴亂事件很可能是一個小事件,而如果是極其負面的語氣,這表明可能是一個更嚴重的事件。而具有積極分數的暴亂事件則可能表明上下文中正在描述一個積極的事(如每天攻擊的數量已經大大減少了)。


AJ 36 Actor1Geo_Type:該字段取值如下:1=COUNTRY (match was at the country level), 2=USSTATE (match was to a US state), 3=USCITY (match was to a US city or landmark), 4=WORLDCITY (match was to a city or landmark outside the US), 5=WORLDSTATE (match was to an Administrative Division 1 outside the US – roughly equivalent to a US state)

AK 37 Actor1Geo_Fullname:此處爲參與者1的完整地理名稱,格式爲“城市/地標,州,國家”。 注意 :同一地點可能具有不同拼寫或名稱,所以該屬性無法用來確定唯一的地理信息。利用下面的FeatureID屬性可確定兩個不同名字的位置指的是同一個地方。

AL 38 Actor1Geo_ADM1Code:此處爲2位FIPS10-4國家編碼和2位FIPS10-4行政區劃1(ADM1)編碼,標識了參與者1的行政區劃地理信息。

AM 39 Actor1Geo_ADM2Code: 對於國際地區,這是分配給每個全球位置的數字全球行政單位層(GAUL)行政區劃2(ADM2)代碼,而對於美國地區,這是州名稱的兩個字符的縮寫(例如德克薩斯州的“TX” ),後跟3位數的縣代碼(遵循GNIS中使用的INCITS 31:200x標準)。注意:在沒有ADM2信息可用,某些ADM1級別匹配以及所有國家級匹配的情況下,此字段可能爲空白/空。 注意:此字段可能仍然包含ADM1級匹配的值,具體取決於它們在GNS中的編碼方式。

AN 40 Actor1Geo_Lat:參與者1所處地理位置的緯度。

AO 41 Actor1Geo_Long:參與者1所處地理位置的經度。

AP 42 Actor1Geo_FeatureID. :參與者1地理位置的GNS或GNIS標識,詳細信息請參考 Leetaru(2012)


EVENT GEOGRAPHY
這一部分屬性值描述了事件參與者與事件的地理位置信息,包含如下字段:

AQ 43 Actor1Geo_Type:該字段取值如下:1=COUNTRY (match was at the country level), 2=USSTATE (match was to a US state), 3=USCITY (match was to a US city or landmark), 4=WORLDCITY (match was to a city or landmark outside the US), 5=WORLDSTATE (match was to an Administrative Division 1 outside the US – roughly equivalent to a US state)

AR 44 Actor1Geo_Fullname:此處爲參與者1的完整地理名稱,格式爲“城市/地標,州,國家”。 注意 :同一地點可能具有不同拼寫或名稱,所以該屬性無法用來確定唯一的地理信息。利用下面的FeatureID屬性可確定兩個不同名字的位置指的是同一個地方。

AS 45 Actor1Geo_ADM1Code:此處爲2位FIPS10-4國家編碼和2位FIPS10-4行政區劃1(ADM1)編碼,標識了參與者1的行政區劃地理信息。

AT 46 Actor1Geo_ADM2Code: 對於國際地區,這是分配給每個全球位置的數字全球行政單位層(GAUL)行政區劃2(ADM2)代碼,而對於美國地區,這是州名稱的兩個字符的縮寫(例如德克薩斯州的“TX” ),後跟3位數的縣代碼(遵循GNIS中使用的INCITS 31:200x標準)。注意:在沒有ADM2信息可用,某些ADM1級別匹配以及所有國家級匹配的情況下,此字段可能爲空白/空。 注意:此字段可能仍然包含ADM1級匹配的值,具體取決於它們在GNS中的編碼方式。

AU 47 Actor1Geo_Lat:參與者1所處地理位置的緯度。

AV 48 Actor1Geo_Long:參與者1所處地理位置的經度。

AW 49 Actor1Geo_FeatureID. :參與者1地理位置的GNS或GNIS標識,詳細信息請參考 Leetaru(2012)

AX 50 Actor2Geo_Type 該字段取值如下:1=COUNTRY (match was at the country level), 2=USSTATE (match was to a US state), 3=USCITY (match was to a US city or landmark), 4=WORLDCITY (match was to a city or landmark outside the US), 5=WORLDSTATE (match was to an Administrative Division 1 outside the US – roughly equivalent to a US state)

AY 51 Actor2Geo_Fullname 此處爲參與者1的完整地理名稱,格式爲“城市/地標,州,國家”。 注意 :同一地點可能具有不同拼寫或名稱,所以該屬性無法用來確定唯一的地理信息。利用下面的FeatureID屬性可確定兩個不同名字的位置指的是同一個地方。

AZ 52 Actor2Geo_ADM1Code 此處爲2位FIPS10-4國家編碼和2位FIPS10-4行政區劃1(ADM1)編碼,標識了參與者1的行政區劃地理信息。

BA 53 Actor1Geo_ADM2Code 對於國際地區,這是分配給每個全球位置的數字全球行政單位層(GAUL)行政區劃2(ADM2)代碼,而對於美國地區,這是州名稱的兩個字符的縮寫(例如德克薩斯州的“TX” ),後跟3位數的縣代碼(遵循GNIS中使用的INCITS 31:200x標準)。注意:在沒有ADM2信息可用,某些ADM1級別匹配以及所有國家級匹配的情況下,此字段可能爲空白/空。 注意:此字段可能仍然包含ADM1級匹配的值,具體取決於它們在GNS中的編碼方式。

BB 54 Actor2Geo_Lat

BC 55 Actor2Geo_Long

BD 56 Actor2Geo_FeatureID


DATA MANAGEMENT FIELDS
最後一組字段提供數據管理信息記錄的事件記錄。2013年4月1日之前的事件在這部分中只具有DATEADDED屬性。

BE 57 DATEADDED:因爲今天發佈的新聞報道可以報道過去的事件,這將導致此字段和其他事件日期字段不一致。此字段記錄的是該條數據被添加入數據庫的日期,而第一部分的日期信息記錄的是事件發生的時間。

BF 58 SOURCEURL:這個字段只存在2013年4月1日以後的文件中。通常記錄事件的新聞文章的URL列表。如果事件是從BBC監測服務的文章中獲得的,這個字段將包含“BBC Monitoring”。如果一個事件在多篇文章中被提及,只提供一個url。


參考資料:
[1] http://blog.csdn.net/u013562414/article/details/51679064
[2] http://www.th7.cn/web/js/201601/150627.shtml
[3] https://www.gdeltproject.org/data.html#rawdatafiles


以上,歡迎交流。如有問題,還望不吝賜教。

發佈了60 篇原創文章 · 獲贊 119 · 訪問量 41萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章