論抽象事件與事件實例

問題的提出

我們"學跡"系統中,給出了以抽象事件爲核心的事件關聯信息。包括事件的因果關聯(前序原因、後續結果),事件的概念描述,以及基於這種抽象關聯和實體產業鏈做的推薦操作。

然而,這些結果給出來的,是一種高度抽象和模板化的結構化數據,體現出常識或常理的特性,對於實實在在的事件,其自身的特殊性還未能區別開來。因此,我在想,具體的事件應該是什麼樣子,其表現形式是如何的,又該如何獲取?

事件實例

事件實例,是較抽象事件有更多信息的一個概念,也叫具體事件。比如人民幣貶值,事件實例應該滿足人民幣貶值的幅度,人民幣貶值的時間或持續時間等其他信息。但這往往會出現一個路徑問題,就是事件實例,是應該走領域事件,還是走通用領域。如果走領域事件,就會落到具體問題具體分析的事件框架(ACE,framenet)中,這樣勢必會大大縮小事件實例的範圍,其受衆和價值會大打折扣;如果走通用領域,則需要定義出一些通用的領域屬性,如時間、地點、幅度等。

我們選擇了更爲通用的這一類事件實例。但在實際的過程中,很明顯的出現了一些問題。
1,我們在抽取邏輯的時候,實際上是在一個抽象的上下文中抽取的,所以,這個事件本身的描述信息就很少,這樣會導致它的通用屬性出現很多缺失值。
2,在出現很多缺失值的情況下,邏輯結果的這種區分能力就很差。典型的,只有時間信息的事件,會帶來時間間斷排列的問題。以人民幣爲例,我們會由於時間屬性的問題,2019年以日爲單位就會出現超過100多個點,這時,雖然可以以一些時間規約的措施如做聚合,但其粒度的控制,主觀性較大。這會給整個前後臺數據的交互,前端的界面的展示,帶來很壞的影響。

爲了實現從抽象事件到具體事件的對接,我們想到了一套方案,即抽象邏輯事件庫對齊資訊事件庫的方法。一頭接着抽象因果事件庫,另一頭接着資訊事件庫,希望兩者能夠進行對齊。因此,資訊事件庫,就變成了一個重要的工作。我們應用了文章關鍵主題信息,事件主題句與事件短語組塊識別的方式,針對給定的一個文章輸出其對應的事件集合,集合中的事件數量通常爲3-5個。在資訊事件庫做好之後,我們通過兩者的時間進行對齊,從而實現這兩塊數據的聯通。

不過,做的過程中發現,這個邏輯有些問題。
1,資訊事件的來源爲一篇新聞,一篇新聞中會出現多個事件,而資訊原文本身就是在描述某個事件的關聯信息,事件存在於其中的某個句子中,而這個句子本身就是抽象的,因此,這並不會得到所謂的事件實例。
2,不同的資訊會抽取出不同的事件,而這些事件在進行融合時,

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章