大規模事理常識知識系統“學跡”的定位、應用與不足

我們於3月16正式對外發布了一個面向事理的實時學習和搜索系統Demo,取名叫“學跡”,取自“學事理,知行跡”(https://xueji.zhiwenben.com)。“學跡”的發佈,進一步拓寬了現有知識庫的門類,爲進一步獲取特定事件的概念解釋、前序原因、後續結果、特定事件的關聯結構化信息提供了一個快速可查的入口。

“學跡”自發布後,受到廣泛的關注,也產生了不少疑問,如學跡的定位、學跡與現有其他搜索系統的異同、學跡的實用價值以及學跡背後的技術等。本文正是對這些問題的解答和說明,論述了“學跡”的自我定位、探索了“學跡”應用的可能性以及當前形態中所體現的不足,歡迎大家批評指正。

一、“學跡”的定位自述

“學跡”與Magi從界面感官來看比較相似,這引起了大家對兩者異同性的疑問。實際上,這兩個系統除了“長得像”之外,存在着很大的差別",皮膚一樣,但裏面的東西完全不一樣。

  1. 不做"實體系統",而聚焦於“事件系統”

考慮到事件比實體具有更進一步的聚焦性和信息聚合能力,與通用的實體搜索不同,我們設計了一套以“事件”爲核心的知識學習和搜索數據流。我們避開了類型衆多且不可控的“實體搜索”,而選擇了更爲聚焦的“事件搜索”,我們約定,一個事件應該包括具體的施事主體和關聯動作,如“人民幣貶值”、“美聯儲降息”,對應其中的實體信息,我們將以“概念描述”的方式對其實體進行解釋展示。

在這裏插入圖片描述

我們關注事件本身(社會對這個事件的理解,概念的理解)、事件之間的邏輯關係(事理邏輯,即更關注事件演化)以及在此基礎上進一步形成推理規則。一方面,我們從零到一地研發了一套互聯網採集引擎,每天數以萬計的網絡開源文本源源不斷地輸入到我們的實時學習系統中,並變成新的結構化事理、概念、產業鏈知識,並設計了一套可靠的知識可信度評分算法。另一方面,我們嘗試了一種友好的方式來最大化地展示事理學習的動態過程,爲了將事件與其他關聯數據形成傳導通路,以事件爲連接中介,我們將概念、事件、產業、數據等進行關聯,將事件相關的事物都有機地聚合起來。此外,我們嘗試地做了一種基於推理可解釋性的產業標的物預測,並試圖基於這些知識試探性地往前走一步,做一些產業相關的推理和預測。

2)技術探索更垂直,圍繞事件展開

"學跡"是一個實時的事理學習和搜索引擎(後面長期會保持這種形態),"事件"而非"實體"的定位,直接決定了其技術外延的不同,事件的知識挖掘和應用與實體的有很大的差異,這是點到面的差異。

在這裏插入圖片描述

"學跡"聚焦於事件識別、事件概念識別、事件邏輯關係抽取以及事件關聯數據和融合等方面,在技術上也是截然不同的。具體來說,事件相關的技術包括一下幾個方面:其一,立足於事件,需要解決事件的表示問題,確定事件的邊界和形式化展現形式,這是事件挖掘中最不可迴避的一個問題;其二,事件的體系是維繫事件運作的一個根本支撐,事件之間的關聯關係、事件的領域性建模都是要具體探索的點。

其三,事件的識別、事件之間關係的抽取、事件的融合與鏈接、事件的抽象和拓展、事件屬性的抽取等環節,是實現事件庫構建的必方式。最後,事件知識與其他知識來源(如實體知識、圖像、音頻、視頻等多模態數據)的關聯和融合,基於此延伸出來的事件搜索、事件關聯、事件演化彙總等推薦技術,也是需要垂直深入研究的。

3)不僅是"知識庫建設",更是"應用探索"

“學跡”通過將事件、概念、邏輯、實時學習、多類知識庫實時更新相結合,沉澱出了千萬級別的因果邏輯知識,千萬級的事件概念知識以及數十萬級的產業鏈知識,屬於一種以“事件概念與邏輯”爲核心的大規模常識知識庫。在建庫完成之後,基於事件概念、數據、實體產業鏈的關聯,以此將事件之間進行互聯,基於這種互聯,“學跡”進一步地完成了事件及事件關聯的終極目標的探索:模式推理和常識預測。

正如我們在頁面中看到的,引入了關聯數據、產業鏈推理,這相當於將事件和產業鏈知識圖譜進行了結合,基於這些可行的顯式推理因子,能夠在可解釋性上帶來幫助。

二、“學跡”的應用可能性

“學跡”到底能做什麼,這也是大家比較關心的問題,基於該系統的認識,我們認爲,可以從以下幾個方面來看:

1、基於“學跡”的寫作及教育素材推薦

當前,AI寫作是寫作市場中的一個熱門,如微軟、騰訊、今日頭條等都推出了相應的智能協作機器人,而針對更爲廣泛的領域來說,“人工編輯+機器推薦”的寫作模式更具備可控性和落地性。對於“學跡”而言,其內部積累的各項事件關聯結構化信息,決定了其作爲“天然語料庫”的特性。
在這裏插入圖片描述

情感類文章是我們常見的一種題材,而在實際的寫作或者向他人進行知識傳播的過程中,經常會因爲苦於找不到“恰當的比喻”或者“深刻的認識”而陷入“素材荒”,“學跡”正好解決了這個問題。

以“愛情失敗”爲例,我們在“學跡”中找到了已學習到的“概念描述”和“因果邏輯”知識。當談論起愛情時,“學跡”發現,人們對愛情的界定和描述千姿百態。愛情是“一物降一物”、是“對抗平凡日子的良藥”、是“文學作品永恆”的主題、是“人類最美好、最聖潔的情感”等美好的形象,也是“一頓一頓吃出來”的平實,“一個光榮而又艱鉅的任務”的現實,也是“詩和遠方”。

而至於爲什麼會“愛情失敗”時,“學跡”發現,是因爲“觸怒了丘比特”、“追不上汽車”,而當經歷了“愛情失敗”後,當事人將會很直接地出現“心理壓力超越心理底線”的情況。因此,我們認爲,儘管當前該知識庫學習系統中所學習到的知識量並未能滿足更大範圍的搜索需求,但它能給出的這些結構化信息,確實能夠爲寫作或者教育帶來靈感上的啓發以及材料上的支持,隨着學習來源的擴充以及學習知識的準確性不斷提升,這種支持必將更加有力。

2、基於“學跡”的技術和系統私有化克隆

從技術構成上來說,“學跡”包括“實時學習系統”以及“學習展示和搜索交互系統”,這兩個系統可以根據用戶數據的具體情況進行領域適應或“就地克隆”。

一方面,“學跡”以自然語言處理語義開放平臺“數地工場”(自開放三個月以來,已累計向公衆服務七萬餘次:https://nlp.zhiwenben.com)爲技術基礎,經過不斷的抽取、學習、知識融合和更新,得到了當下的結構化知識庫信息。後臺積累的技術棧,包括領域事件表示,領域事件關係抽取、概念描述與對齊、產業鏈挖掘技術、知識置信度評估方案、實時學習與抽取方法,可以作爲獨立的技術模塊抽離出來,形成一套領域事件學習系統工具。用戶可以根據自有數據,引入這一學習系統並進行適配,從而對現有的私有數據進行抽取學習。
在這裏插入圖片描述

另一方面,“學跡”的頁面和交互方式也可以作爲一個工程化的“學習展示和搜索交互系統”抽離出來爲用戶提供數據適配。在整個搜索過程中所涉及到的Vue, Leader line、VisJS、highchart等實現動態數據關聯、可視化圖譜展示等功能的基礎前端插件,與前端用戶交互過程中所關聯的問句解析、問句標準化、問句搜索與排序、關聯推薦以及相關搜索等基礎搜索組件,在實現對用戶自有的數據進行接口適應,從而滿足基於純用戶數據的展示和關聯搜索的同時,也可以與“實時學習系統”一道,針對用戶提供的非結構化數據源,提供一站式“採集-抽取-搜索”服務。例如,“學跡”首頁中的“正在學習”模塊以及展示頁面中的leadline線條等展示形式,均可以實現對用戶自有數據的適用。

在這裏插入圖片描述

3、基於“學跡”的信息聚合和可解釋性推理

“信息聚合”和“可解釋性推理”是“學跡”在“結構化知識實時學習”外的其他兩個重要特徵,這也是我們後面在“知識庫”上應用的嘗試和未來計劃。

一方面,該平臺以“事件”爲核心,將結構化信息(包括事件關聯概念描述、事件前因後果)以及事件外部關聯信息(包括關聯產業鏈圖譜、關聯數據指標、關聯資訊)等多種信息進行了聚合。用戶可以在自己輸入的特定事件之後,得到多項“外延信息”。通過將事件與實體概念以及與產業鏈實體進行鏈接之後,實現了從事件到實體層的信息跳躍,以及從事件因果邏輯網向產業鏈上下游節點的聯通,進一步延伸了事理影響的範圍;將事件與具體的數據指標進行關聯,實現了從“定性知識”向“定量知識”的轉變。這些信息之間的聯通、跳躍以及轉變,體現出了“學跡”對“信息聚合”的新思考。
在這裏插入圖片描述

在這裏插入圖片描述

另一方面,“學跡”中的事理邏輯(前序原因和後續結果)和產業鏈圖譜信息,賦予了該系統“可解釋性推理”的物質基礎。該系統基於大規模可信文本來源抽取、抽象和積累形成了先後因果傳導模式,關聯了上下游節點(包括上下位節點、生產材料、生產關係、依存關係、主營產品、所屬行業及板塊)之間定向聯動傳播模式。兩種模式,可以在相應專家推理規則的約束和組織下,在給出初步推理結果的同時,給出可視化的推理路徑。
在這裏插入圖片描述

在這裏插入圖片描述

這一推理路徑的可解釋性具有較高的意義,這也是現有知識圖譜推理的一個典型特點,一方面,可解釋性爲用戶提供了一個可以糾錯的接口,針對給出的產業鏈推理路徑,可以根據自己的判斷進行糾偏,從而保證傳導的準確性;另一方面,這種可解釋的模式,也可以爲後期更多的路徑構成來源起了個好頭,將事件更多關聯信息(包括事件的同級信息、關聯信息、以及上下位抽象關係路徑等)進一步納入進來,可以使得這種推理更具可靠性和魯棒性。

三、“學跡”抽象知識的侷限性與不足

“學跡”,是一個大規模事理常識知識庫,其內部知識構成是對現實生活和社會發展過程中一些“顯而易見的知識”或“專家系統”的高度抽象化總結,“高度抽象化”是該類知識庫的一大特點,任何不必要的成分,如時間信息、計量信息、時態信息均被“隱去”,這是一個自下而上的總結概括過程。“模式”是這一“高度抽象化”的直接結果,更具備通用性和覆蓋度,大部分具體而微的事件和邏輯都是在這一條件下做的屬性添加或者變更,換而言之,人們可以通過這類知識庫,得到一個更寬泛的一個結果。

在這裏插入圖片描述

然而,這種過於抽象和結構化的知識庫在具體而微的信息表達能力上顯得比較薄弱,這也是當下各種常識知識庫的一個通病。正如“學跡”所表達出來的感官效果一樣,結構化知識的羅列以及抽象性結構化知識帶來的外部信息缺失,使得它在“因時而異”、“因地而異”的表達上顯得較爲欠缺。2020年3月3日,美聯儲突然宣佈降低聯邦基金利率50個基點至1%-1.25%,以應對新冠肺炎疫情給經濟活動帶來的風險,並打響了全球央行聯手行動的第一槍,其他國家進行了相應的跟隨行動。在目前的“學跡”知識庫中,可以得到關於“美聯儲降息”在“抽象模式”下的事件彙總:

在這裏插入圖片描述

然而,時效性,細節性(主要突出地表現在5W1H)是事件挖掘以及事件系統中較爲重要的兩個重要因素,一般而言,一個事件應該包括自身的屬性信息,如最根本的時間信息。“美聯儲降息”這個事件在歷史上發生過多次,而每次降息的背景都不同,雖然可以將降息背景大致歸結爲“危機”,但不同時刻下的“危機”具有很大的區別。

“學跡”針對這一事件所展示出來的結果,是一個全集,而將這些更爲細節的信息保留下來,對不同時間、不同地點等更多方面的事件細節進行區別並顯示,可以進一步增強該事件邏輯知識的特殊性和獨立性。因此,將更具有“事例”和“體系”屬性的事件關聯知識建設,以及基於該知識庫實現的應用探索,將是後期“學跡”要着手的工作。

四、總結

我們於3月16正式對外發布了一個面向事理的實時學習和搜索系統Demo,取名叫“學跡”,取自“學事理,知行跡”(https://xueji.zhiwenben.com)。“學跡”的發佈,進一步拓寬了現有知識庫的門類,爲進一步獲取特定事件的概念解釋、前序原因、後續結果、特定事件的關聯結構化信息提供了一個快速可查的入口。

“學跡”與Magi從界面感官來看比較相似,這引起了大家對兩者異同性的疑問。實際上,這兩個系統除了“長得像”之外,存在着很大的差別":“學跡”不做"實體系統",而聚焦於“事件系統”;“學跡”不僅"知識庫建設",更是"應用探索";“學跡”技術探索更垂直,緊緊圍繞事件展開。

關於“學跡”能做什麼也是大家比較關心的問題,基於該系統的認識,我們認爲可以至少有以下三種應用:

1、基於“學跡”的寫作及教育素材推薦;

2、基於“學跡”的技術和系統私有化克隆;

3、基於“學跡”的信息聚合和可解釋性推理。

正如“學跡”所表達出來的感官效果一樣,結構化知識的羅列以及抽象性結構化知識帶來的外部信息缺失,使得它在“因時而異”、“因地而異”的表達上顯得較爲欠缺。因此,將更具有“事例”和“體系”屬性的事件關聯知識建設,以及基於該知識庫實現的應用探索,將是後期“學跡”要着手的工作。

項目地址:https://xueji.zhiwenben.com

關於我們

If any question about the project or me ,see https://liuhuanyong.github.io/

如有自然語言處理、知識圖譜、事理圖譜、社會計算、語言資源建設等問題或合作,可聯繫我:
1、我的github項目介紹:https://liuhuanyong.github.io
2、我的csdn博客:https://blog.csdn.net/lhy2014
3、about me:劉煥勇,中國科學院軟件研究所,[email protected]

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章