金融知識圖譜

知識圖譜與機器學習技術對比

相似之處:

  1. 都使用海量標註數據集
  2. 都以替代人類進行分析實體特徵爲目標
  3. 知識圖譜中需要用到機器學習,機器學習也需要知識存儲

相異之處:

  1. 知識圖譜不需要訓練
  2. 知識圖譜可以容忍比較「髒」的異構數據
  3. 知識圖譜推理的中間結果很容易讓人類理解

建造流程

知識圖譜建造的流程一般是: 髒數據 -> 乾淨數據 -> 文檔樹/表 -> 圖譜 -> 本體 -> 邏輯。對於知識圖譜的建造範式有多種看法,有的着重於推理能力,有的着重於知識的表示能力,有的着重於工程實現。實際操作過程中我們在考慮成本的同時,一個典型的建造過程如下:

  1. 首先信息抓取的系統要能在只替換少量代碼的情況下適配大量異構、不斷更新的數據源
  2. 從股轉中心、證監會、微博、文檔OCR等渠道抓取的信息是髒(帶噪音)的,需要有比較寬容的方法能對不同的數據進行清洗
  3. 清洗過的數據根據應用需要,格式化到一定的程度,同時根據成本限制保留非格式化的部分
  4. 裝載格式化數據到圖譜裏,根據數據內容或數據特性添加它與其他數據的關係
  5. 從數據中抽象出本體,與人類擁有的世界知識相對應
  6. 從關聯中得到邏輯,這步成本比較高昂,根據應用可簡化

圖論數據庫與超圖

超圖(Hyper-Graph)是對傳統圖論的擴展,無向超圖中的邊的定義是節點的笛卡爾積,有向超圖更復雜一些,但本文中我們更關心工程實現,因此對有向超圖和圖上操作的定義將採用聲明式聲明式圖論語言(Cypher)給出。
當我們將超邊視作高維球體、節點處在球體內,有向超圖中的超邊可以具有梯度、散度、旋度等描述維度,可以用兩個節點之間的正勢描述出度,負勢描述入度。例如具有散度的一條超邊可以描述一種從一個源節點(Source)指向多個節點的關係,並且能簡單地定量描述出源節點到其他節點的出度,類似地,具有梯度的超邊可以描述對對多關係,具有旋度的一條超邊可以描述出「A男喜歡B女,B女喜歡C男,C男喜歡D女,D女喜歡A男」的關係。
有向超圖的表述能力比一般有向圖更適合金融場景,例如對供應鏈中各企業本體的連接就可以選用帶散度的有向超圖,勢的方向由上游企業指向下游企業。當供應關係發生變化,可以在「融貫超邊」內使表示舊的供應關係的超邊以 100% 的出度指向新的供應關係。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章