金融情報挖掘:面向公開文本的期貨事件聚合與傳導因素分析

金融情報挖掘是情報領域的一個重要分支,通過對金融領域信息進行提取和分析,發現關聯線索,對傳導關聯進行建模,能夠挖掘出市場變動的規律,最終輔助決策。
例如,國內外資本市場,衍生品市場熱點不斷,如“原油跌停”、“智利地震”、“美股暴跌”、“華鑫期貨違反法律法規”、“期貨公司抵制文華財經”等,這些事件涉及多個金融機構、人物、產品等多類實體。
通過輿情分析,尋找這些事件之間的傳導關係,對市場產品(國債期貨、股指期貨)趨勢的影響有着重要意義。
通過輿情分析,尋找這些事件之間的傳導關係,對市場產品(國債期貨、股指期貨)趨勢的影響有着重要意義。
本文以該任務爲研究對象,對任務的抽象、任務的評估、任務的實現以及總結等幾個方面的內容進行介紹。

一、任務的抽象

每天公開的資訊文本中包含了大量的期貨相關信息,以“事件”爲角度,對資訊中關聯的事件、實體、實體關係、事件關係進行輿情分析,目標是挖掘出事件之間的傳導關係、事件的輿情信息以及該事件下對市場可交易產品趨勢的影響。

爲此,我們對該任務進行進一步抽象,即:
輸入:
某一時間段中的財經領域公開文本

輸出:
1)以該公開文本數據集爲基礎形成的事件聚合;
2)熱點事件列表與排序;
3)事件與資訊、資訊與實體之間的實體關聯;
4)輿情數據對實體影響的可解釋性路徑及大小;
5)影響實體走勢的因素分析與排行。

二、 任務的評估

信息提取技術、事件聚合技術、知識圖譜技術以及時序分析技術是實現這一目標的重要技術點。其中:

信息提取,需要完成對既定的實體類型、實體關係以及實體屬性的提取,事件識別以及事件因果邏輯提取;

事件聚合,通過對相似文本進行判定和聚合,利用資訊去重與聚合技術,形成不同事件主題下相關的文本聚類,得到事件與文本之間的關聯關係;

知識圖譜,包括對期貨領域知識的組織、構建以及應用(具體包括關聯可視化以及關係推理等);

時序分析,包括在不同時間窗口中的事件序列識別、市場交易物影響走勢推理、可解釋性的影響因素分析等。包括事件推理以及因素分析兩個核心技術點。

這些核心技術點在我們團隊以往的工作中均有體現,因此,這項任務具備較高的技術可行性。

三、任務的實現

1、 數據與技術路線的準備

我們選擇了2019年至2020年間,共168萬期貨相關資訊,並結合多種外部知識庫,如:2400萬因果事理邏輯知識庫、37萬產業鏈知識庫、期貨類實體庫、關聯關係庫、期貨風險標籤等,進行了過程所需數據的擴充和增強。

在技術路線的實現上,我們確立了從“資訊採集”到“影響路徑因素與輿情分析”和“資訊影響庫”以及“熱點資訊屬性庫”三個最終數據庫的數據生產路線,如下圖所示:

在這裏插入圖片描述
圖1-期貨事件聚合與傳導因素分析技術路線

2、 熱點事件的資訊聚合

在熱點事件的資訊聚合中,針對輸入的資訊集合,對資訊進行主題向量化表徵,並進行關聯性資訊挖掘和資訊聚類。

在這裏插入圖片描述
圖2-熱點事件的資訊聚合路線與效果

3、 面向資訊的事件識別

針對輸入的資訊,對資訊中的既定實體事件進行識別和提取,並提取該事件在資訊中的權重。

在這裏插入圖片描述
圖3-面向資訊的事件識別路線與效果

4、 面向事件的主體識別

我們針對事件中提及到的期貨類實體進行識別,確立了3大類14小類,結合規則與序列標註的實體識別模型,在識別後進行實體統一和標準化。
在這裏插入圖片描述

圖4-面向事件的事件識別路線與效果

5、 面向事件的因果邏輯識別

針對資訊文本中存在的事件因果邏輯關聯,我們採用了面向顯式因果邏輯的有監督提取方法。目前,基於這種方法,我們已經成功形成2400餘萬因果邏輯等大規模事理知識庫資源。

在這裏插入圖片描述
圖5-面向事件的因果邏輯識別路線與效果

6、 事件的風險標籤識別

我們根據業務理解自行定義了期貨相關事件的風險標籤,一共包括五類風險標籤(市場風險、流動性風險、法律與政策風險、操作風險和信用風險)。

針對每類風險,我們根據自己的業務理解設計了一系列的特徵。如信用風險的核心是存在違約行爲,因此信用風險的特徵包括是否發生違約事項、是否存在違約的主體以及與違約相關的屬性,如合約到期時間等。

在這裏插入圖片描述
圖6-事件的風險標籤識別效果

7、 事件的情感分析

針對資訊事件情感分析,我們分別進行了面向篇章級主題段落的情感計算以及基於實體識別與語義依存的實體級情感計算,以形成不同維度的事件輿情指標。

在這裏插入圖片描述
圖7-事件的情感分析識別效果

8、 熱點事件影響推理路徑生成

基於熱點資訊,基於資訊提及的事件,藉助外部邏輯推理知識庫與推理規則進行標的物推理。

在這裏插入圖片描述
圖8-熱點事件影響推理路徑生成路線與效果

9、 期貨實體影響情緒因素分析

針對期貨實體的影響情緒因素分析,我們基於歷史消息面的期貨輿情智子生成,面向39個大宗商品期貨,提供了2012年至今的輿情走勢,經過對比發現,期貨的輿情走勢與對應價格的走勢基本對應。

在這裏插入圖片描述
圖9-期貨實體影響情緒因素分析效果

10、 期貨實體影響路徑因素分析

我們以影響路徑中的節點爲期貨影響因素,並以影響路徑中事件的貝葉斯網絡概率爲轉移概率,配合各類量化指標,融合產業鏈、因果事理邏輯、實體關聯網絡,實現對該影響路徑的因素分析。根據因素權重的大小,我們得到了其影響的因素排行。
在這裏插入圖片描述

圖10-期貨實體影響路徑分析效果

四、 任務的總結

經過對任務的抽象、任務的評估以及任務的實現,我們在2019年至2020年,共168萬的期貨相關資訊中,結合我們團隊積累形成的多種外部知識庫,初步完成了任務所需功能,取得了較爲滿意的效果。具體包括:

1、實現了資訊去重與相似性事件聚合;

2、完成了資訊事件提取、實體提取、實體關係提取與因果邏輯提取;

3、確定了期貨相關的5大類風險,並進行風險判定;

4、針對不同維度,提供了資訊篇章級、實體級兩個層次的情感計算;

5、提出了基於外部事理庫與推理規則的影響路徑生成方法,對特定期貨進行了影響因素分析和輿情分析。

不過,在整個任務的實現過程中,存在多個可改進之處:

1、相關數據缺失,若有更多的外部數據(工商、實體關聯數據、關聯量化數據),可優化當前影響推理效果。

2、算法的效果需要有具體業務知識作爲適配,將更多的業務知識融入到模型算法中,可進一步提升算法對數據的針對性和適用性。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章