金融知識圖譜

知識圖譜與機器學習技術對比

相似之處:

都使用海量標註數據集
都以替代人類進行分析實體特徵爲目標
知識圖譜中需要用到機器學習,機器學習也需要知識存儲
相異之處:

知識圖譜不需要訓練
知識圖譜可以容忍比較「髒」的異構數據
知識圖譜推理的中間結果很容易讓人類理解
建造流程

知識圖譜建造的流程一般是: 髒數據 -> 乾淨數據 -> 文檔樹/表 -> 圖譜 -> 本體 -> 邏輯。對於知識圖譜的建造範式有多種看法,有的着重於推理能力,有的着重於知識的表示能力,有的着重於工程實現。實際操作過程中我們在考慮成本的同時,一個典型的建造過程如下:

首先信息抓取的系統要能在只替換少量代碼的情況下適配大量異構、不斷更新的數據源
從股轉中心、證監會、微博、文檔OCR等渠道抓取的信息是髒(帶噪音)的,需要有比較寬容的方法能對不同的數據進行清洗
清洗過的數據根據應用需要,格式化到一定的程度,同時根據成本限制保留非格式化的部分
裝載格式化數據到圖譜裏,根據數據內容或數據特性添加它與其他數據的關係
從數據中抽象出本體,與人類擁有的世界知識相對應
從關聯中得到邏輯,這步成本比較高昂,根據應用可簡化
###圖論數據庫與超圖
超圖(Hyper-Graph)是對傳統圖論的擴展,無向超圖中的邊的定義是節點的笛卡爾積,有向超圖更復雜一些,但本文中我們更關心工程實現,因此對有向超圖和圖上操作的定義將採用聲明式聲明式圖論語言(Cypher)給出。
當我們將超邊視作高維球體、節點處在球體內,有向超圖中的超邊可以具有梯度、散度、旋度等描述維度,可以用兩個節點之間的正勢描述出度,負勢描述入度。例如具有散度的一條超邊可以描述一種從一個源節點(Source)指向多個節點的關係,並且能簡單地定量描述出源節點到其他節點的出度,類似地,具有梯度的超邊可以描述對對多關係,具有旋度的一條超邊可以描述出「A男喜歡B女,B女喜歡C男,C男喜歡D女,D女喜歡A男」的關係。
有向超圖的表述能力比一般有向圖更適合金融場景,例如對供應鏈中各企業本體的連接就可以選用帶散度的有向超圖,勢的方向由上游企業指向下游企業。當供應關係發生變化,可以在「融貫超邊」內使表示舊的供應關係的超邊以 100% 的出度指向新的供應關係。
--------------------- 
作者:陶瑞同學 
來源:CSDN 
原文:https://blog.csdn.net/qq_30262201/article/details/78801116 
版權聲明:本文爲博主原創文章,轉載請附上博文鏈接!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章