淺談事理圖譜認知:系統體系+領域收斂+人機協同+輔助範式

事理圖譜,不是簡單的事件識別和事件關係識別以及事件三元組存儲,是一個需要健全事件體系牽引、具有領域收斂特性、在構建上需要人機協同,在應用上擁有多種輔助範式形成的系統體系工程。–劉煥勇,於中科院軟件所,20191012

事理圖譜,不是簡單的事件識別和事件關係識別以及事件三元組存儲,是一個需要健全事件體系牽引、具有領域收斂特性、在構建上需要人機協同,在應用上擁有多種輔助範式形成的系統體系工程。

一、知識圖譜的認識

1.1、教材中的知識圖譜認識
知識圖譜是什麼,有太多的理解,在工作過程中遇到一些朋友的需求,很多都是憑着對知識圖譜那張可視化的圖的記憶來看說,能夠幫他們做知識圖譜,這難免暴露出現在行業創新的急躁。
當然,對於知識圖譜是什麼,教材是最好的例子,目前先後有高教社趙軍老師團隊的知識圖譜,電子工業出版社肖仰華老師的知識圖譜概念,也有陳華鈞老師的知識圖譜構建實戰。第一本教材很偏學術理論,從知識工程的角度上來說的知識圖譜,作者都是做實體關係抽取、事件抽取等總結的經驗;第二本教材很偏抽象的概念,給人一種滿滿的準則感覺,第三本教材則是偏向於語義網的角度上來說的知識圖譜,離實際應用還有些距離。
1.2、實際工作中的知識圖譜認識
實際上,圖譜,這個圈子很小。以圖譜方式進行知識單元節點形成的相關工作,都被有意無意地歸類成知識圖譜,形成了廣義而粗淺認識的知識圖譜(外行知識圖譜),狹義而精細的知識圖譜(內行知識圖譜)。而隨着大家對知識圖譜認識的加深,就像一個月餅裏原先包的是豆沙餡兒的換成蛋黃餡兒的,本質上沒有太大的差別,這裏的本質,在這裏,更多的是圖譜的架構問題。

二、從知識圖譜到事理圖譜的認識

2.1、認知智能與知識圖譜
知識圖譜是認知智能的語義基石,基於知識圖譜中所存儲的知識,機器可以像人一樣去進行知識應用,知識推理筆記看過很多博文的人都會有這種的認同感,這沒有什麼問題。認知,是人類相較於其他動物最大的區別,在我看來,認知能力主要包括概括能力和類推能力兩種,概括能力是能夠基於大量既定事實總結經驗規律模式,並形成具有一定層級的模式思維能力。類推能力,更像是概括能力的反向用力以及應用,即常說的思考或舉一反三。因此,既然認定知識圖譜是認知的基礎,那勢必需要滿足這兩種基礎,即概括基礎和類推基礎。
概括基礎形式化體現出來,是具有概括性的能力,以概括抽象性的能力以及抽象概念性知識庫作爲輸出。說到這個,又要說到人的認知體系問題,人類的認知體系是以名詞性實體爲核心還是以動詞性事件爲核心的,不同的核心決定了不同的概括需求。事實上,作爲一個由社會活動驅動的人類,是動詞性事件爲核心的,動詞性事件支配名詞性實體,因此概括性能力應該包括名詞性能力和動詞性能力。但即便是如此,人類在顯式的表達自己的知識時,還是以選擇名詞性實體進行表達,是因爲名詞性實體比事件更爲細粒度,也更爲穩定,也是好習得,好操作,即先知道what is what再知道do what 。
2.2、名詞性實體知識圖譜與動詞性事件類圖譜
名詞性能力這方面代表性的工作有大詞林、wordnet,這兩個是我認爲真正意義上做到這點的工作,一個是抽象,二是分層,沒有進行分層的概念性是零散的(一堆高度稀疏的isa),這方面的工作包括cnprobase,以及conceptgraph。但是,對於這種概括性知識圖譜而言,還是基本上集中在名詞性實體上,究其原因,一是因爲好建模(可以利用實體鏈接,背後有百科類實體作爲支撐,好操作),二是因爲數據的可獲得性,有大量認爲預定好的層級(目錄樹,網頁導航,黃頁)等。當然,在這個方面,各大電商,醫療,工業,領域等積累了大量的材料,如阿里商品等,基於商品的挖掘,可以快速搭建一個面向商品消費的層級性實體概括性知識庫。
動作性的概括性圖譜目前還相對空白。與名詞概括性圖譜不一樣,名詞性的概括性可以用is-a表達,而動詞性概括圖譜更多的是一種part-of關係,事件具有組成性的特徵。相關的工作更多的是集中在事件的邏輯性的挖掘上(因果邏輯,條件邏輯,上下位邏輯)。有必要說明的是,其中的上下位(包括基於名詞性實體的上下位以及基於動詞性實體的上下位)是這種概括性圖譜中的一部分。比如結婚這個動作,包括領證、辦喜酒、發請帖等幾個組成性事件。前者所描述的是一種諸如貨幣貶值下的美元貶值、人民幣貶值、日元貶值。一種在形式上有交集,可以找到規則,另一種沒有形式規則可言。所以,前者的挖掘難度要比後者簡單地多,而意義上後者則要強得多。
2.3、事件類圖譜:向上概括的抽象事理與向下泛化的領域事件拓撲
同一個事件知識,如果只關注單個事件集合之間的關係(上下位,組成、因果、時序),那麼就會走向具有三層結構的事件類知識庫(抽象事理圖譜),這類圖譜的特點是隻考慮事件名以及事件名個體經過加工、抽象、模式規約後形成的體系關係,而不考慮具體的事件富信息。其中的三層結構,第一層是事件頂層,也可稱爲事件類型,用最頂層的事件類型名稱對下沿事件進行統籌。第二層,是事件抽象模式層,也叫事件類簇代表,統籌基於該事件模式下存在不同表述的事件個體。第三層,是事件事例層,屬於具體的事件名稱(如巴西發生大火)。
與漫步的抽象事理圖譜不同,它考慮的更爲周全,且體現在領域性上。周全,即在滿足事件名的基礎上,能夠以事件槽的方式挖掘事件的不同側面信息,例如殺人事件中的時間、被害人、犯罪嫌疑人、地點等。領域性,即該事件領域的刻畫,領域的事件具有領域的屬性特徵,具有領域的槽位側面,用於描述領域性的事件信息。當然,這種領域性包括通用領域和垂直領域(金融、社會治理等),領域的槽位數量和角度都各不相同。領域事件圖譜藉助這種信息的複雜性,能夠支持更多方位的信息檢索、分析和追蹤服務。但往往會因爲包袱過重,無法大規模施展開來。這種包袱體現在槽位的定義,事件的定義上,通用的槽位數量太少(如SEM設計的事件本體)不足以體現領域特性和功效,領域的槽位(如ACE實在有限,framenet略多實則有限)需要精心設計,不具有擴展性,工程週期長。
漫步與包袱互助,事件快跑。抽象事理圖譜甩掉了包袱,在抽象概括性知識上深耕,事件類圖譜在實例事件上小步慢行。兩者分別從向上和向向下兩個角度在做(腦補亞里斯多德與阿基米德的畫面)。兩者融合是一個大方向(或許早已有之,但沒有大規模工程化,技術手段需要深思考)能夠樹立起整個事件知識基石。抽象事理圖譜的技術難點和核心在於“抽象”二字,把握抽象粒度,動態變通事件體系,在此基礎上再進行平級邏輯挖掘,終極目標在於抽象能力的自主習得和體系的自我構建、更新與完善。領域事件類圖譜核心和難點在於“領域”兩個字,自動梳理和劃分領域事件類別,自我習得既定類別的具體槽位,突破人工手動,解放業務專家。兩類圖譜,以事件名或者事件實例作爲中間鍵進行連接。

三、事理圖譜的應用認知

3.1基於事理圖譜的可解釋性推薦
基於事理圖譜的可解釋性推薦,是沿襲知識圖譜可解釋推薦的應用特性來說的。事理圖譜中包括豐富的事件邏輯關係,包括縱向方向上的上下位、組成關係,橫向方向上的因果、時序關係,也包括事件豐富的槽位信息(不同的側面),這都爲可解釋性推薦提供了數據基礎。
從應用形式上看,包括基於上下位關係進行推薦,例如根據貨幣貶值,推薦美元貶值、人民幣貶值等;基於組成關係進行推薦,例如根據結婚這一事件場景,推薦訂婚、領證、買婚紗、買戒指等;基於因果、條件等預設性邏輯關係進行推薦,例如根據暴雨,推薦受災、抗洪等;基於時序性關係進行推薦,例如根據買票這一事件,推薦刷身份證、坐車等;基於關聯實體知識圖譜的實體推薦,例如根據范冰冰偷稅漏稅,推薦關聯的股票如唐德影視等;基於事件屬性槽面值的相關性推薦。例如,地震這一事件,可以推薦地震級別高於5級的地震,震源深度小於20km的地震等。
從實現技術上來看,可解釋性推薦包括基於事理圖譜的可解釋推薦應用需要用到事件識鏈接、推薦算法。其中:事件識別指識別出給定文本中的事件片段或事件名稱,事件鏈接指將識別出來的事件在整個事件庫中找到唯一的鏈接事件。事件識別可以藉助事件名匹配與切分的方法,也可以藉助序列標註的方式進行事件名的識別,也可以結合依存句法等特徵相結合的方式完成事件識別。在事件鏈接上,可以採用實體鏈接的方式進行鏈接,通常可以表現爲藉助上下文表徵或者詞幹化的事件相似度計算方法。事件推薦技術指的是可以根據事件子圖匹配進行推薦,也可以對事件進行建模進行匹配。另外,推薦也可以通過內置的推理路徑規則進行推理指導,給出相應結果。

3.2基於事理圖譜的問答系統
基於事理圖譜的問答與基於知識圖譜的問答類似,目的是以用戶一問一答的方式完成對特定知識的獲取,例如特定任務的辦公流程詢問,圍繞特定實體展開的相關事件獲取,獲取特定事件的前序和後續事件的獲取,基於問答者輸入特定事件的標的物影響獲取等服務。
從技術實現上來看,基於事理圖譜的問答系統包括事件識別鏈接、事件操作意圖的識別、問答查詢轉換與生成三個重要技術。事件識別鏈接指的在用戶的自然問句中進行事件所指(even mention)的識別,並鏈接到已有的事理圖譜當中;事件操作意圖的識別指的是識別出用戶自然問句中希望完成的事件相關操作,即事件的邏輯關係、事件的關聯屬性等;問答查詢轉換與生成,指的是將解析生成的事件及目標操作意圖轉換成可供圖譜查詢的語句並執行查詢返回結果。事件識別鏈接是其中的一個難點,用戶的自然問句形式可以多種多樣,同一個問句中也很有可能包括多個事件,需要準確地識別出事件邊界。除此之外,基於事理圖譜的會話管理與控制也是保證多輪問答成功性的必要條件。

3.3 基於事理圖譜的標的預測
所謂標的預測,指的是與事件相關的標的物預測,例如股票價格、期貨收盤價、商品價格、貨物產量等的預測。
傳統的標的物預測,往往是基於量化數據進行的預測,而近年來,基於文本的預測工作逐步展開。以預測股票價格爲例,可根據股票的新聞文本進行文本-價格建模,形成基於文本的預測模型。在這個建模過程當中,可以根據具體的文本進行向量表示,向量化的方式包括:基於全文的向量化表示、基於全文摘要的向量化表示、基於詞的(關鍵詞、主題詞、實體詞)的向量化表示、基於元組的向量化表示,此外還可以加入情感極性、主觀性等特徵融入到上述向量化表示當中。
事理圖譜的出現,爲標的物的預測提供了兩個方向。即:基於事件鏈接和標的物關聯路徑匹配的預測,融合事件圖結構表示的標的物預測。基於事件鏈接和標的物關聯路徑匹配的預測指的是基於已有的事理知識,對文本中的事件進行識別和鏈接,通過關聯的標的物路徑,形成對標的物品方向性的預測;融合事件圖結構表示的標的物預測,指的將基於鏈接的事件,將事件中的各個維度特徵融入到圖結構當中,通過預先標註關聯的標的物及其變化方向,訓練分類模型,從而實現標的物的最終預測。

3.4基於事理圖譜的實證性素材驗證
所謂事理圖譜的實證性素材驗證,是作爲一項輔助邏輯正確性以及寫作推薦的應用提出的。由於事理圖譜中的事件實例層中積累了大量的事件原始描述,這些原始描述都來源於某個文本,具有一定的上下文信息,形成了豐富的事件素材。這個可以在以下幾個方面發揮作用:
1) 基於事理圖譜的寫作素材推薦
基於事件實例庫,寫作者在敘寫某個事件時,可以將該事件的原始描述和事件上下文進行素材的推薦。典型的,可以充分利用事件之間的邏輯關係進行關聯事件推薦,如給定事件推薦該事件發生的條件、後續的動作、引起的結果、相關聯的上位事件和組成事件等。
2) 基於事理圖譜素材成立性驗證
事理圖譜素材成立的驗證指的是針對寫作者所列舉的事件關聯性,給出具有實際可供驗證的描述性文本。例如給定一個特定的因果事件對:豬瘟->豬肉價格上漲,可以從事件實例庫中找到支持該事件對的原始描述。

3.5 基於事理圖譜的增強型輿情監控

所謂增強型輿情監控,指的是充分利用事理圖譜知識刻畫優勢和結構優勢進行的輿情監控增強。輿情監控,指對特定文本進行文本情緒、傳播、演化等計算。就目前而言,輿情監控的主要集中在對特定網站或文本進行採集,通過主題分析,情感計算,熱點發現與統計、標籤化等手段進行輿情建模。而基於事理圖譜,可以從以下幾個方面進行增強:
1) 特定信息的採集
在採集上,大都基於關鍵詞搜索的方式來獲取某一關注事件的文本信息,爲了擴大文本的召回,大都會採用關鍵詞擴充的方法加以拓展(如採用同義詞表、近義詞表等)。而若以前置構建好的事理圖譜作爲知識基礎,可以充分利用事件詞之間的各類關係進行擴充,如上下位關係,組成關係,因果關係,順承關係等,因爲從本質上來說,這類事件直接有些很強的緊密結合性和相關性。這種擴充,一方面可以提升監測的廣度和完整性,另一方面也隱性地將網頁文本套進了事件體系之中。
2) 特定事件的分析
如果有實現構建好的事件層級,那麼在對事件的分析上就更具備有針對性,即可以預先了解需要分析的角度。如分析銀行降準這個事件,可以從降準的粒度、降準整個體系、降準的方向、降準實施者、降準所帶來的影響、降準的起因等幾個角度去進行全方位分析,不再侷限於某一個點。如此一來,得到的結果也能更爲多元化且有說服力。
3) 預警性事件的監控
預警性事件,指的是基於已有事理圖譜中存在時序或因果邏輯關係的後續事件。如豬瘟事件出來之後,根據已有的事理邏輯關係,可以得出豬肉價格上漲,出欄率下跌,飼料價格下跌等多個後續事件,而後續事件不會全部或者一直髮生,往往是個別事件發生,或者極少數事件持續發生。這時,通過對這些事件進行監測,能夠針對性地篩選出個別事件自己極少數事件,這對於後期的控制和預警具有很大幫助。此外,還可以在事件中融入一些具有風險性和標籤化的手段,對事件本身貼上一定的類別標籤,能夠進一步增強預警性事件監控的有效性。

6、基於事理圖譜的知識管理
所謂基於事理圖譜的知識圖譜,指藉助事理圖譜中以事件爲核心,事件體系爲整個骨骼支撐起來,對具體事件、實體、邏輯等的統一管理。知識管理是知識情報管理中的重要組成部分,包括對不同形態的知識單元進行存儲管理,實現對知識的收集、增添刪除、編輯改寫、查詢等。事理圖譜的出現,爲知識管理提供了以事件體系爲架構的知識管理新模式。
以事件體系爲架構的知識管理可以形成一個領域事件管理平臺。具體包括事件的體系定義模塊、事件知識的編輯模塊、事件知識的更新模塊、事件知識的導出模塊。事件的體系定義模塊指使用者根據領域特性,自頂向下的事件的層次體系,相當於事件知識的多級目錄。事件知識的編輯模塊包括對事件的錄入、事件的刪除、事件的導入、事件的關聯等操作;事件知識的更新模塊指對現有數據進行更新,包括自更新和用戶手動更新兩種模式,同時也包括對事件知識的版本更新問題。事件知識的導出模塊指的是對現有事 件知識進行導出、備份以及共享,用於後續事件分析、事件保存等用途。
與基於知識圖譜的知識管理不同,以事件體系爲架構的知識管理可以充分發揮出事件層級性結構信息、事件的邏輯關聯關係、事件的關聯實體信息等,具有更大的知識統籌能力,將實體性知識與動態性事件知識結合在一起,並將視頻、音頻、圖片等多模態信息進行關聯,更具備全局性。

7、基於事理圖譜的文本表示模型
所謂事理圖譜的文本表示模型,指的是藉助事理圖譜的知識組織體系,用於單個文本或多文本的結構化表示,這種結構化表示包括形式化的表示和分佈式的表示。形式化的表示,指以事件節點和事件關聯實體進行表示,分佈式的表示,指充分利用事件圖譜的網絡拓撲結構將形式化的事件結構化應設成一個低維稠密的向量表示。
傳統的文本形式化表示主要有以詞爲單位的,以句子段落爲單位的,以信息元組爲單位的。其中以詞爲單位一級的有高頻詞、關鍵詞、實體詞、主題詞這四大類,分別從文本中詞語的高頻出現、關鍵區別能力、實體性以以及主題三個方面出發,在技術上分別對應於高頻詞提取、關鍵詞提取以及實體識別;以句子爲單位的,主要有摘要或簡寫的形式,分成生成和摘取兩種,生成指根據全文自動生成若干個沒有在原文中實際出現的句子。摘取指從全文的句子集合中篩選出重要的句子,加入連貫性等操作,形成的句子集合;以信息元組爲單位的,包括二元組字典形式,如以what、when、where、who爲鍵相應數值爲值的存儲形式來揭示單個或多篇文檔中的各個不同側面信息;也包括以主謂賓爲結構的三元組形式,其中主語和賓語可以唯一的缺失。
基於以鏈圖爲單位的表示方法。指將詞、句子段落、信息元組通過某種關聯規則進行連接,形成一種具有鏈圖結構的文本圖表示。如將信息元組根據元組的共同起止元素進行首尾相接,就可以得到一個有向有環狀的文本鏈路圖。基於這個文本鏈路圖,一方面可以較爲清晰地看出整個文章的行文脈絡,如在記敘文中看出事件的演化順序,議論文體中看出主題的論點網絡。另一方面,可以揭露出關鍵信息之間的網狀邏輯關聯信息,爲後續基於該結構化圖譜的應用包括基於文本的問答、信息檢索、交互性可視化等提供支持。

四、事理圖譜的技術體系認知

4.1事件表示技術
事件表示包括形式化事件表示和分佈式事件表示兩種表示方法:
1、形式化事件表示。指運用形式化數據結構對事件進行表示,具體有以下幾種:
1)事件字典形式。以key-value事件元數據對進行事件表示。如針對地震這一事件,可以以地震的地點、時間、震級、震源深度作爲k,相應的值作爲value,作爲事件表示。
2)事件三元組形式。事件三元組,與知識圖譜知識三元組相對應,顯式地表示稱<subject,predicate,object>的形式,其中,subject和object可以缺省,或者以某個特殊標誌符進行表示。
3)事件字符序列形式。事件字符序列形式,指的是以自然語言形式對結構化事件進行口語化複述的自然語句片段,這個片段可以是一個短語,也可以是一個短句,也可以是一個長句或者段落。
形式化事件表示的優勢在於可以讓人可清晰、明瞭的看到一個事件的整體描述,難度在於無法直接交給計算機進行處理,爲此,往往需要對這種形式化的事件進行分佈式表示,編碼成一個低維稠密的事件分佈式表示。
2、事件分佈式表示。指的是將事件映射成低維稠密的向量形式。主要有以下幾種方式:
1)事件字典形式的向量化。這個可以採用類似於onehot的形式,針對字典的所有key,可以將key作爲向量化的維度特徵,每個value作爲向量化的一個具體的值。這種表示方法在事件類型較多時,會出現稀疏的問題。
2)事件三元組形式的向量化。這個時候可以利用類似於trans系列的事件建模思想,得到subject,predicate,object的向量化表示。基於單個元素的向量化表示,可以通過拼接、加權求和等方式得到整個事件三元組的分佈式表示。當然,還可以在這種表示的基礎上加上其他的特徵,如時態、情態、標籤等特徵。
3)事件字符序列的向量化。事件字符序列已經是一個文本字符串,這個文本字符串可以利用常用的文本表示方法進行表示,傳統的onehot,基於char-embedding,token-embedding,ngram-embedding進行的加權表示,基於sent2vec,skip-thought等的方式進行預先深度學習表示。

4.3事件抽取技術
事件抽取技術是構建事理圖譜的最核心技術部分,從抽取技術上來說,可以細分爲事件抽取和事件關係識別兩個組成要素。從抽取的文本對象來說,可以分成基於單句、跨句、段落以及篇章的事件抽取。

  1. 事件名稱抽取
    事件抽取包括事件mention抽取和事件元素抽取,事件mention抽取指在文本中識別出事件的描述性片段,即事件名稱,該名稱通常包括事件的觸發詞,該觸發詞唯一地規定了該事件的事件類型。事件mention的識別包括基於開放事件抽取的方式、基於給定觸發詞的規則識別、基於序列標註的識別、基於閱讀理解問答的識別四種方式。基於開放事件抽取的方式將事件名抽取的問題轉換成一個事件主謂賓三元組的抽取問題,包括基於依存句法及語義分析的規則式抽取、基於序列標註的主謂賓三元組抽取方法。基於給定觸發詞的規則識別,指通過制定特定的事件觸發詞,圍繞該觸發詞設定事件名識別規則如事件長度、事件單位、事件成立性要素等識別出事件描述片段。基於序列標註的識別,指通過訓練連續事件字符序列模型,對給定文本識別出事件的起始位置和終止位置。基於閱讀理解模型的事件名識別,指運用閱讀理解模型對給定文本,以答案作爲原始事件序列的方式訓練問題-文本-答案三者的模型,很對給定文本識別出新事件的起始位置和終止位置。
    2)事件元素抽取
    事件元素信息抽取,指抽取該事件類型所對應的事件槽位屬性信息,如結婚事件中的結婚時間、結婚人物、結婚地點等信息。
    基於串行方法的事件元素抽取將整個流程分成事件觸發詞識別、事件分類、事件元素候選識別、事件元素角色標註幾個步驟,通過對事件名稱進行觸發詞識別,再進行事件分類,並觸發相關的事件要素進行實體識別形成候選事件要素,並將候選事件要素與事件觸發詞組成對,對候選事件元素進行角色識別,放入指定的事件槽中。基於並行方式的事件元素識別直接對整個輸出端進行標籤序列化,利用端到端的模型一步到位地得到各個事件的元素以及元素角色。
    從實現方法的類別來看,該抽取主要包括基於句法模板規則、基於分類的方式、基於序列標註、基於閱讀理解多輪問答的方式,從實現的流程上來看,包括基於串行的事件元素抽取和基於聯合的事件元素抽取。基於句法模板規則的識別,指結合依存句法,語義分析,在經過候選元素識別後通過句法和語義上的路徑對事件元素進行定位。基於分類的方式將事件元素的抽取轉變成一個基於多步驟分類任務,通過分類模型得到候選事件元素,通過分類模型對處觸發詞-事件元素二元組進行語義角色分類,如此集成多個分類器。基於序列標註的方式,則將事件元素的抽取過程轉換成一個事件標籤的預測過程,標籤對應於事件的元素角色。基於閱讀理解多輪問答的方式,將事件元素抽取轉換成一個人機多輪交互問答的方式,通過迭代地詢問某一事件的各個元素,並將得到的答案進行替換形成新的問句,循環迭代下去,最終得到每個槽位對應的事件元素。
    3)事件關係識別
    事件關係識別指對給定兩個事件,抽取出兩個事件之間的邏輯關係的技術,具體邏輯關係包括因果、條件、順承、組成以及上下位等邏輯關係。該關係的識別主要包括基於顯式關係識別模板以及基於關係分類模型的識別方法。基於顯式關係識別模板的方式通過結合語言學知識,如句子關聯標記詞、關聯模式詞等進行識別,也可以結合事件對中兩個事件之間的位置信息,進行聯合刻畫。基於關係分類模型等識別方法,結合事件本身的特徵以及事件對之間上下文特徵,預先訓練好邏輯關係識別模型對後續的事件進行識別。前者的可以不需要預先訓練預料,充分利用關係之間的顯性語言學特徵快速識別,但對於隱式的事件對關係召回率很低。後者優勢在於可以學習到事件之間的隱藏關係,但往往需要大規模高質量的關係分類訓練語料。

4.4 事件抽象與泛化技術
事件抽象的目的是通過對既有事件,通過事件聚類以及事件模式挖掘的方式形成具有抽象層級性的事件體系。事件泛化,是對事件抽象的反向操作,基於已有抽象事件進行實例化事件生成。其中,事件抽象技術,包括:
1) 基於外部層級性知識庫的抽象技術
這個抽象包括名詞性的抽象和動詞性的抽象,通過對事件中的實體元素或者動作類詞語進行識別或者鏈接,通過原先實體抽象路徑進行跳轉式抽象,逐步地、迭代地進行替換和向上回溯,就可以得到藉助外部原有知識體系結構得到的概括性結果。這種技術有個很大的侷限性,就是抽象的結果基本上取決於原先構建好的外部知識庫,外部知識庫一方面在數量上很難大規模建立起來,其次其準確性也至關重要。
2) 基於頻繁搭配的模式規約抽象技術
與基於外部層級性知識庫的抽象技術不同,該技術不依賴或不完全依賴於已有的外部層級知識庫,而是將關注焦點轉移到事件模式的規約和發掘上。頻繁搭配的方式有多種,有基於共現、基於互信息統計、基於點間互信息的統計、基於相似度的方式等聚類方式。而其中的細節也包括對原始事件語句的常規處理,包括同義詞、停用詞的處理、句子主幹成分的提取等。

4.5事件融合技術
事件融合包括兩個方面的融合,即事件名稱的融合和事件元素的融合,事件元素之間的融合可以解決事件元素的稀疏性。

五、事理圖譜的工業化認知

1、 事理圖譜的領域應用問題
事理圖譜是一個具有多層級結構的知識庫,但在回答在具體應用場景中是否應該使用事理圖譜作爲技術選型顯得很重。經驗的來說,選擇事理圖譜需要考慮以下幾點:一是否具有事理圖譜的可建模性。有的領域事件很少或很難對事件進行定義,往往在事理圖譜的建模性上存在問題;二是領域事件或事件邏輯關係規模是否小型且有限,如果規模很小的話,那麼直接使用人工構建的方式即可,可以不引入相關的自動化構建方法。三是可供挖掘事件或事件關係的文本可獲得性,如果可獲得的量非常少或極少,那麼就缺少了整個事理運行的可能性;四是是否利用先前的知識庫形式已經可以解決問題,例如是否是實體性知識圖譜已經可以解決相關問題,如果能,則可以不使用該圖譜技術。

2、事理圖譜的人機協同機制
人機協同機制是整個自然語言處理領域保證工業化的真理。一方面,由於自然語言處理技術自身的侷限性,在對事件以及事件關係體系的挖掘上,往往存在誤差,而且這種誤差會隨着處理流程的鏈路不斷傳播,需要加以控制;另一方面,知識性的提取技術對知識的準確性上要求特別高,這種準確性的影響因素來源於本身知識輸入源以及提取技術兩個方面。知識輸入源中的文本產生於人工,人工產生的文本會在常識表述、行文不規範上存在一定的錯誤,質量上參差不齊。在通過自然語言技術處理之後形成的數據自然就存在置信度問題。因此,爲了充分保證較高的置信度,人機協助是最可行的方式。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章