50萬抽象知識圖譜項目(實體抽象、性狀抽象與動作抽象)

AbstractKnowledgeGraph

AbstractKnowledgeGraph, a systematic knowledge graph that concentrate on abstract thing including abstract entity and action. 抽象知識圖譜,目前規模50萬,支持名詞性實體、狀態性描述、事件性動作進行抽象。目標於抽象知識,包括抽象實體,抽象動作,抽象事件。基於該知識圖譜,可以進行不同層級的實體抽象和動作抽象,這與人類真實高度概括的認知是一致的。

項目介紹

抽象知識圖譜,集中於對知識圖譜和事件圖譜中的實例事實進行抽象,包括實體抽象、動作抽象以及事件抽象,從而達到對人類真實認知的模擬。本項目目標有三個:
1)論述抽象圖譜。對抽象圖譜的現實需求進行論述。
2)介紹抽象圖譜的相關工作。目前,關於抽象知識圖譜的工作已經有一定的積累,如英文中的ConceptNet,MINDNET,verbnet;中文的CN-Probase,Hownet,大詞林,百度百科Schema等。
3)提出抽象知識圖譜的實施路線並給出抽象接口實踐。一個可用的抽象知識圖譜構建路線,是對以上兩個內容的實踐說明。

關於抽象知識圖譜

1、抽象知識圖譜的現實基礎與需求

1)語言的語法特性。定語+主語+狀語+謂語+補語+賓語是目前中文成句的重要形式,這種成分的佔位與填充爲了以詞性標註、實體識別、句法分析已經語義角色標註的自然語言處理提供了基礎。

2)語言抽象的層級特性。語義三角(包括符號,語義以及語境況三者構成的三角),對人類社會認知進行了很好的刻畫。語言形成的過程,是人類對認知(物體,動作,思想)概括和總結的過程。形式化是概括的手段,語言符號及符號體系是概括的結果。層次性是符號體系的一個重要特徵,概念之間的上下位,概念之間的總括與構成等,形成構成了語言抽象層級性的物質基礎。

3)抽象能力是認知能力的基礎。認知的過程,是對現實世界火活動的交互過程,包括內在和外在兩個組成部分,內在負責自身知識的總結,抽象,體系的構建過程,即學習過程。外在負責對內在部分形成的知識體系應用的過程,應用包括驗證和補充兩個部分,驗證在於對內在知識形成的證僞,補充在於對新抽象知識的形成與抽象規則的修正兩個方面。孩子從出生的一無所知到逐步認知能力的過程,就是對知識不斷總結、概括以及應用的過程。

4)抽象數據與抽象規則的獲取挑戰。讓機器能夠達到小孩的智力,根本上需要具備抽象能力以及抽象數據基礎兩個條件。這是解決認知智能的一個方向之一,而目前現有的技術手段,還難以快速滿足這兩個條件。一方面,健全的抽象數據較難獲取,抽象與概括的類型衆多,既有對動作的抽象,也有對名詞實體的抽象,也有對性狀的抽象,抽象的角度以及抽象的粒度很難把握。另一方面,基於這類抽象數據,學習或總結出內在的抽象規則和抽象層級,是難以攻克的一點。

2、抽象知識圖譜的構成
1)抽象知識圖譜體系架構
在這裏插入圖片描述

抽象知識圖譜包括抽象實體知識圖譜和抽象事件圖譜兩個組成部分,抽象實體知識圖譜主要關注靜態的實體性知識,抽象事件圖譜則關注事件自身的抽象以及事件與事件之間(事理)的知識。抽象事件圖譜需要抽象實體圖譜作爲有效載體,並加以支配;抽象實體圖譜以抽象事件圖譜作爲有效承載,併爲其所利用;抽象知識圖譜是不同抽象層級的實體事件庫,核心在於對事實實例的抽取以及抽象層級的概括兩個方面,層級知識體系以及明確的事實實例是抽象的兩個重要基礎。基於事實實例的抽象是人腦對知識總結概括的過程。

2)抽象知識圖譜的抽象角度

a) 名詞性實體的抽象
名詞性實體的抽象是知識抽象中最爲基礎也作爲寬泛的一種,名詞性實體豐富多樣,並隨着社會的發展以及新事物的產生而增加。蘋果是一個公司,也是一種水果,水果又是一種植物,植物又是一種生物,這類層級性的名詞性成分能夠支持實體聚類、實體泛化等一系列應用。

b) 性狀性修飾的抽象
性狀性修飾的抽象,指對形容詞性狀態成分進行抽象,可用於對描述性知識的層級抽象。如美麗一詞,屬於美好這一層級,美好這一層級又可以歸爲友好積極的一類;又如悲傷這一詞,通過悲傷自身的語義屬性,又可以擴展成不同層級的修飾性成分。

c) 動作性事件的抽象
動作性的抽象,是除名詞性實體抽象之外語義更爲豐富但構建難度更大的一種抽象工作,動作是事件的重要組成部分,動作的層級反映了人類的事件歸類和分類的印象。例如,睡覺是一種停止工作的動作,停止這一動作是從動態到靜態的狀態改變。殺人是犯罪,動刀子是殺人的一個可能步驟,這些動作之間構成的層級性語義網絡能夠配合名詞性和性狀性詞語的抽象而生成更具有通用性的事件模式,即推動事件演化模式(event logic schema)的構建工作。

中文抽象圖譜相關工作

目前中文抽象圖譜的工作主要還集中於在實體層級的概念上下位知識庫,典型的有CN-Probase, BigCilin,BaikeSchema等四個

  1. CN-probase
    CN-probase是由復旦大學基於百科知識庫構建起來的一個大規模實體型概念知識庫,該知識庫對百度詞條的義項進行挖掘,並基於此進行上下位的挖掘。該項目目前不公開數據集,只提供API的調用。地址:http://kw.fudan.edu.cn/apis/cnprobase

  2. HowNet
    HowNet是董振東與董強兩個老師研製出來的一款中文版的wordnet,該知識庫構建起了具有層級體系的幾百個概念,並基於此對超過6萬個漢語詞語進行了義項的刻畫和組織。以HowNet爲體系架構的基本組件,在配合詞彙挖掘方法,可以形成一個較大規模的抽象知識庫。Hownet與其他幾個不同,該知識庫還關注動詞的抽象層級。該項目目前提供源文件的下載,已開源,關於這個的數據資源,可以參考我之前的一個工作,即句子相似度計算項目,地址:https://github.com/liuhuanyong/SentenceSimilarity

  3. BigCilin
    大詞林是由哈工大秦兵老師團隊基於搜索引擎結果、百科類知識以及結合同義詞詞林進行概念上下位挖掘的所形成的一個抽象知識庫。該知識庫關注實體性的知識,在動詞性的知識上還暫未涉及,對於大詞林的技術細節以及使用樣例,可以搜索大詞林,查閱其相關文檔。該項目目前僅提供demo展示,無法開源調用。地址:https://www.bigcilin.com
    在這裏插入圖片描述

  4. BaikeSchema
    基於衆包方式形成的百科知識庫中包含着大量的社會常識知識,這種知識以Taxonomy的方式進行組織。百科類知識庫,包括以百度百科、互動百科以及維基百科爲首的三大百科,在知識抽象上包括兩個方面,一個是百科分類體系樹,另一個是百科詞條頁面中的標籤以及義項體系,集成這兩個百科的知識體系,可以得到準確率適當的層級效果。不過,在構建過程中,不同的百科中有不同的百科分類體系,往往需要進行對應以及融合。該項目數據分佈在百科平臺上,需要整理形成使用。關於這方面的工作,可以參考我之前做的一個工作:
    1,百科schema收集項目,地址:https://github.com/liuhuanyong/BaikeKnowledgeSchema
    2,基於百科知識的上下位概念項目,地址:https://github.com/liuhuanyong/HyponymyExtraction

抽象圖譜構建技術路線

圖譜的構建最忌諱從零開始,因此,可以踩在巨人的肩膀上進行處理。利用howet中的概念層級體系爲基礎,同時對百科類知識體系進行融合,並使用同義詞詞林等知識庫進行拓展和泛化,並在知識更新上,基於百科概念事實以及模式挖掘提升抽象圖譜的數量和質量。下圖展示了該技術路線圖。

在這裏插入圖片描述

目前接口效果

目前知識的抽象,本項目從詞性的角度出發(詞性與知識的類型比較強相關)進行處理,以下分別展示了名詞性、狀態性、動作性的抽象路徑初步結果,文件說明如下:
1)dict/concept_total.txt,詞彙與概念文件,存儲詞語的概念義項。
2)dict/hiearchy.txt,基礎概念體系文件,存儲基礎概念體系。
3)search_concept.py,概念抽象文件,python3.6環境,直接運行即可。效果如下:

1,名詞抽象路徑
在這裏插入圖片描述

2,狀態詞抽象路徑

在這裏插入圖片描述
3,動作抽象路徑
在這裏插入圖片描述

總結

1,本項目提出了一個抽象知識圖譜的項目,目的是對知識抽象與泛化提供一個思路並初步實踐。
2,本項目介紹了抽象知識圖譜,對抽象圖譜的現實需求進行論述。
3,本項目介紹了中文抽象圖譜的相關工作。擺闊CN-Probase,Hownet,大詞林,百度百科Schema等,並給出了之前關聯的項目地址。
4,本項目提出了一個可用的抽象知識圖譜構建路線,提出抽象知識圖譜的實施路線並給出抽象接口實踐。基於hownet,同義詞詞林,從名詞性實體抽象、形容詞性性狀描述抽象以及事件性動詞抽象三個角度出發,形成了一個規模約50萬的抽象接口。
5,知識圖譜體系的再認識。知識圖譜包括知識詞彙表的挖掘,知識體系的挖掘,知識事實的挖掘三個部分內容,三個部分內容按照先後順序排序。知識詞彙表挖掘負責對知識中的短語名稱、組合名稱進行挖掘,形成符號基礎。知識體系的挖掘,指知識概念層級的挖掘,更多的集中在抽象層級的挖掘;知識事實的挖掘,是目前的實體抽取與實體關係抽取,這也是目前知識圖譜所處的階段。
6,本項目提出了一個較爲理想的目標,但技術實現起來仍然還需要一個體系更爲健全、技術更爲先進的方法來處理。後續這個項目可以長期維護。

If any question about the project or me ,see https://liuhuanyong.github.io/

如有自然語言處理、[知識圖譜、事理圖譜]、社會計算、語言資源建設等問題或合作,如果對事件知識庫有興趣的落地或者研究,可聯繫我:
1、我的github項目介紹:https://liuhuanyong.github.io
2、我的csdn博客:https://blog.csdn.net/lhy2014
3、about me:劉煥勇,中國科學院軟件研究所,[email protected]
4、懂預言者得天下,得語言者分天下,得知識邏輯者,遊得天下。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章