知識圖譜發展的三個時期以及事理圖譜概念辨析

一、知識圖譜發展三個週期

      知識圖譜,從2012年穀歌正式將這一概念應用到工業界之後,到現在已經逐步走過了將近7年的時間,在這七年的時間裏,知識圖譜逐步經歷了從概念興起、概念泛化、技術掙扎與落地尷尬三個環節。
1、 知識圖譜的概念興起——起於谷歌,興於搜索
      知識圖譜,真正以一種新鮮事物進入公衆視野的時間大概是谷歌於2012年提出的knowledge graph,國內學者直接意譯爲“知識圖譜”。(當然之前有科學知識圖譜、語義網,不在此文討論範圍之內)。從字面意義上來說,知識圖譜的核心包括兩個,一個是knowledge,另一個是graph。Knowledge充當的是數據的類型角色,所刻畫和描述的數據被稱作是知識,graph充當的是數據組織和存儲結構的角色,即圖結構。數據這個點決定了知識圖譜所能涵蓋和刻畫的領域和範圍,圖結構決定了數據的使用方式和應用方向。
      2012年,谷歌首先拋出了知識圖譜這個概念,並將其應用於提升搜索服務,在搜索效果上的直觀體現主要還是集中於實體級別的搜索,通過內部實體之間的關聯信息以及實體的屬性等信息,在用戶在進行實體搜索時,通過關聯查詢,以知識卡片的形式同時提供實體本身以及關聯實體的信息,從而在給出什麼是什麼的情況下,再一度地給出此外還有什麼的問題。簡單的來說,這種搜索體驗大致可以歸爲2點,一是搜索結果的目的簡潔性,是一個實體或者實體屬性,形式上更爲確定,而非一個網頁。而是搜索結果的上下文擴展,這裏所說的上下文指的是實體的關聯信息,這些關聯信息能夠在讓用戶知道多一點的情況下可進一步提升用戶的點擊興趣。事實證明,谷歌這一做法是奏效的,新的搜索方式引領了一步新的潮流,並且隨後被國內外同行爭相跟進,如yahoo,Microsoft,facebook,百度,搜狗,阿里巴巴先後提出了自己的知識圖譜並快速產品化。這類產品主要還是集中於搜索領域,歸結的來說,即知識圖譜起於谷歌,興於搜索。
2、 知識圖譜概念的泛化——雖有嘗試,亦存跟風
      當知識圖譜起於谷歌,興於搜索之後,藉着搜索的東風以及搜索本身作爲一種信息傳播的工具,知識圖譜這一概念開始經歷第二個時期,即快速傳播時期。主要傳播的方式包括三個途徑,一種是文字上的傳播,關於大量知識圖譜的報道,軟文介紹在互聯網上大規模傳播,“知識圖譜”、“knowledge graph”等關鍵詞充斥於各個技術文章當中。二是視覺上的傳播,“兩個圓圈一條邊,邊上幾個文字懸”的知識圖譜形象化展示圖片被大量生產出來,這似乎固化了知識圖譜在大衆心目中的物化形象,即知識圖譜就是一張網,就是網中的可視化。三是聽覺上的傳播,如ccks爲主要代表的會議,線上以及線下知識圖譜講座、課程使得“zhi shi tu pu”這個名詞在人羣中廣爲傳播。這三種方式一同發力,直接將知識圖譜這一概念的流行度推向高峯。而一旦一個名詞性概念被廣爲流傳和熟知之後,如ai一般,知識圖譜恐怕難逃“知識圖譜+”這樣的命運,這裏的“知識圖譜+”與“互聯網+”以及“ai+”一樣,成爲互聯網創業中的基本標配,越來越多的項目向知識圖譜靠攏,形式上,知識圖譜在各個領域的快速應用,醫療知識圖譜、法律知識圖譜、食品知識圖譜、農業知識圖譜、金融知識圖譜、產業鏈知識圖譜、教育知識圖譜等等,如雨後春筍般湧現。這些知識圖譜的大量出現,歸結的來說,雖有嘗試,亦存跟風。知識圖譜可以作爲一個技術本身而存在,而不同的業務場景,不同的需求是否真正需要使用知識圖譜從而完成所需目標就另當別論了。
3、 知識圖譜概念的落地——躊躇滿志,艱難不止
      當一個新鮮事物被廣爲流傳之時,即到達了一個頂峯之後,就必然不能停留在想象之中,想象中,很不同,與現實場景有很大不同,即現實場景下,就到了概念到實際應用的轉化了。說到這,自然而然就要說到知識圖譜本身的技術問題了。第一節說到,知識圖譜核心包括數據-知識,結構-圖譜,數據是最爲重要的一點,目前運用數據進行產品研發和應用落地的重要前提就是數據的靠譜性,所謂的數據靠譜,主要體現在知識的準確性、實時性以及小衆性三個方面。其中準確性是首要前提,錯誤的數據會導致錯誤的結論;實時性主要是尊重知識的客觀屬性,即動態性,社會是不斷動態變化的,知識是不斷動態實時更新的,舊的落後的數據無法保持得到的結論是可靠的;小衆性主要是從知識的價值大小來說,“物以希爲貴”這條定理很好的說明了這個問題,大衆的知識是你有我有全都有的知識,這大衆已知的知識對於後期的應用以及公司的競爭力來說,沒有太大的意義。而如法律知識、軍事知識、交易數據等私密或者只有少部分人能夠獲取的知識,才真正大有可爲。因此,要真正意義上把握這三點,將知識圖譜做好,其實是個“躊躇滿志,艱難不止”的事情。在知識圖本身技術上的侷限性,從知識抽取-知識融合-知識更新這一長條知識工程pipeline上,知識圖譜這一塊的骨頭可謂是相當難啃。

二、從實體到事件

      當知識圖譜作爲一項技術和名詞性概念進行發展之時,新的變體就會必然出現。知識圖譜的基本組成單位,<實體,實體關係,實體>中,我們進行成分替換之後可以得到多種不同的類型,例如,我們將實體單位換成是一個事件,實體之間的關係換成是事件的關係,那麼就可以得到以“事件”爲核心的event knowledge graph。然而,目前關於event knowledge graph,概念不統一,因此,接下來可以展開論述。概念不統一,本質在於對event knowledge的界定不同,什麼是事件知識,而事件又是什麼?本身關於事件(event)的界定都不明確。目前關於事件的界定有很多,如目前ACE、TDT、chambers在做narrative event chain或者scripts中的事件,這些事件都給出了不同的解釋。而從計算機處理事件來說,應該從以下幾個方面去考慮一個事件:
1、事件的外部表示界定
      知識圖譜中的實體和實體關係都有唯一的一個表現形式進行表示,如名詞性的“劉煥勇”,動詞性的“畢業於”,形容詞性的“美麗”等,這種唯一的表現形式提供了節點表示的可能。而如果要將節點替換成事件,用一種特定的字符串序列來表示事件,會出現什麼情況?一個事件是一個名詞還是動詞,還是一個短語,還是一個主謂或動賓二元組,還是一個主謂賓三元組,還是一句描述,還是囊括更多信息的N元組?這些都是需要考慮的問題。目前廣泛應用於scripts以及narrative chain中的以動詞作爲事件的表示方式往往太過於抽象,往往一些名詞也可以充當事件,這個放在兼類現象嚴重的中文中問題更大。事實上,事件在外部形式上的表現方式,直接決定了事件在圖譜中的組織方式和管理機制。
2、事件的內部信息表示界定
      單純以一個詞來表示事件的方式往往太過於單薄和抽象,而一個事件之所以能夠成爲事件,那麼最好的方式是能夠使用盡可能少量的字符或者字段表達儘可能多的事件相關信息。在這個方面,ACE定義了8類事件,以及幾十個小類的事件類型,人工地針對每個事件小類定義了槽即slot的概念,從不同的側面圍繞一個特定的事件觸發詞trigger words來進行事件描述。由於這種事件結構定義不具備普適性和拓展性,遷移成本特別高,因此,後期有人考慮使用framenet以及verbnet來解決這個問題,但依舊有限,而且這都是屬於英文領域,對於中文,又會遇到“巧婦難爲無米之炊”的問題。目前,關於事件的info-schema,可以自行搜索關於eventschema相關的框架,主要代表性的有國內上海大學的5元組事件表示,國外的semevent本體表示框架。
3、事件之間關係的表示界定
      靜態性的知識數量規模巨大,這決定了實體關係類型的豐富性,而相對於實體而言,事件之間的關係則相對較少,從大的方面來說,事件之間的關係主要包括空間關係和時間關係兩個大類,兩個大類底下能夠繼續下分,形成不同的子空間關係和子時間關係。空間關係和時間關係又可進一步聚類形成邏輯關係,不同的空間和時間關係組合決定了不同的邏輯關係。

三、事件類圖譜的幾個類別

      根據事件外部表示以及關係的不同,事件類知識圖譜主要有以下幾種概念形式(此處爲個人總結):
1、 事件知識圖譜(event knowledge graph)
      事件知識圖譜,在這裏,我更傾向於認爲這個圖譜本身更傾向於爲一個事件知識庫,而非知識圖譜。事件知識圖譜的工作主要圍繞事件知識本身進行展開,關注點在於事件內部信息,如ACE中的8大類事件,將這幾類事件中的信息進行抽取和填充就能夠得到一個以特定事件類型作爲分類標準的事件知識庫,如婚姻事件庫、爆炸事件庫等。最近的工作包括自動化所關於金融事件知識圖譜的工作,集中於資產凍結等少數幾個特定事件的事件知識圖譜。這種事件知識圖譜中的事件由特定的事件類型及其槽構成,內部關係主要考慮包括事件論元之間的關聯,對於外部事件之間的關聯關注較少。
2、 抽象事理圖譜(abstract event evolutionary graph)
      抽象事理圖譜,最早由哈工大信息檢索實驗室在narrative chain的基礎上提出,目標是揭示事件之間的演化性,關係上主要考慮順承和因果兩種,在事件節點的設置上傾向於事件的抽象性,以原文短句的形式作爲字符串表示,這種抽象性質決定了該事件不具備更爲細緻的內部事件信息,形式上很爲簡潔。但存在的挑戰很多,例如如何抽象,以原文短句作爲事件外部表示似乎看不到抽象的成分在,抽象的力度如何控制,不同的抽象粒度會得到不同的抽象結果。
3、 事件邏輯知識圖譜(event logic knowledge graph)
      事件邏輯知識圖譜,是綜合事件知識圖譜和抽象事理圖譜之間的一種知識圖譜類型,該知識圖譜既保留了事件知識圖譜中事件內部信息的完備性,又保留了抽象事理圖譜中外部事件表示的抽象性,具有完備性和抽象性雙重特徵。不過,事件邏輯知識圖譜與事件圖譜不同,事件邏輯知識圖譜規避了事件知識圖譜的領域特徵,而採用統一的事件槽,即通用的事件N個論元組對事件表示,其中論元的設置綜合考慮了回答5個W,1個H的問題的同時,更考慮事件的情緒、確定性、完成性、主觀性、權威性等信息,並通過領域實體的增加與替換來達到對不同領域的適配。本質上來說,事件邏輯知識圖譜的核心在於邏輯,而這種邏輯的本質特性是抽象性,因此事件之間的邏輯關係需要從底層的事件進行高度抽象而成,這種抽象主要體現在事件邏輯知識庫中事件外部形式的表示上。與抽象事理圖譜不同,由於有了底層具有豐富內部屬性的實例事件作爲支撐,可用於事件抽象的信息更多,在事件融合方面帶來了極大的便利,另外在事件之間的關係上,進一步進行擴展,可以形成對立、條件、部分與整體等多種邏輯網絡。

四、事件類圖譜的幾個重要問題

      在實際的理論研究和生產過程當中,我們發現,以下幾個方面的問題需要急需解決。
1、事件關係語料庫的構建與融合。目前關於這方面的英文語料庫主要有timebank以及propbank,中文的有突發事件cec語料庫以及哈工大的篇章關係語料庫等,這些語料庫一方面在分佈上較爲分散,另外,在事件的標註上,還是侷限於動詞性詞語作爲事件表示。因此,更多類型的事件關係語料庫需要構建,在標註的形式和規範上需要從詞級別進一步轉換成句子級別等。
2、事件關係抽取的任務規則轉變。目前,時序事件評測以及因果事件評測任務大多轉換成了一個序列標註任務或者文本分類問題來做,而這基於一個重要的前提,即數據集中明確標註了事件本身,我認爲這樣的任務與其說是抽取,不如說是分類,因爲沒有事件抽取的概念在。這樣的評測任務,直接會造成在實際應用場景下無法直接使用。識別出事件這一個步驟需要提上日程,而不是在已標註好的事件上,做事件關係的判定之類的刷榜遊戲,實際落地應用價值不是特別大。
3、事件類知識圖譜的評估。這個問題是我們在工作過程當中,包括與別人討論時必問的一個問題,即準確率的評估問題。事件邏輯知識圖譜是目前我們工作的重點,我們在通用事件論元表示,抽象性事件關聯抽取上做了一些工作。總結的來說,事件邏輯知識圖譜從零到有,包括因果、順承、對立等事件的抽取,事件內部論元的識別,事件的抽象與融合,事件的動態等一系列環節,組成一個具有誤差傳播的pipeline,每一個環節的準確率都需要進行評估。此外,在構建好的事件邏輯知識圖譜當中,如何應用進行輔助決策,在應用層也需要進行準確性的量化。這些評估問題在標準數據集的構建以及評估方法上面臨着諸多挑戰,這是我們目前遇到以及正在解決的問題,可以關注我們的工作。

五、總結

      知識圖譜目前已經發展了近7年的時間,在這7年的時間裏,知識圖譜從興起走向泛化,目前正處於從概念到落地的環節,還存在諸多挑戰。正如知識圖譜一樣,事理圖譜提的多了,大家對該概念的理解就會出現偏差,也就會對事件類圖譜有不同的認識,本文介紹了我們在實際過程中對事件類圖譜的認識,可以幫助大家掃掃盲區。另外,也正如知識圖譜一樣,事理圖譜目前到了落地應用的環節,技術上存在多種問題需要解決,本文也提出了幾個需要解決的問題,如事件關係語料庫的構建、事件關係抽取任務規則的轉變、事件類知識圖譜的評估,大家也可以多想想關注此類問題。

      如有自然語言處理、知識圖譜、事理圖譜、社會計算、語言資源建設等問題或合作,可聯繫我:
1、劉煥勇,中科院軟件所,[email protected]
2、我的github項目介紹:https://liuhuanyong.github.io
3、我的csdn博客:https://blog.csdn.net/lhy2014
4、我的公衆號:老劉說NLP

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章