事理圖譜:一種純學術需求、無法落地、漏洞百出的新技術或新概念?

過去幾個月,深陷所謂“事理圖譜”當中,苦惱不已。從2018年4月份開始做所謂的“事理圖譜”以來至今,磕磕碰碰,做了很多技術上的嘗試,也不乏在應用事理圖譜上嘗試了多種做法,也不乏寫了幾篇關於事理圖譜的文章(實際有未想明白之處)。現在寫個階段性的總結,以對過去在“事理圖譜”中的工作進行一種反思,工程中的事理圖譜要比學術報告PPT中的情況複雜的多,展示的圖要亂的多,性能的數字少得多。。。。。

一、事理圖譜是怎麼來的?

“事理圖譜”這個詞是國內哈工大劉挺老師首次提出,與此同時較該團隊之前有類似的工作,如中科院軟件所、數據地平線公司的工作,也叫事理圖譜。目前見學術文章的以劉挺老師的團隊爲例。英文版本,出現過EEG(Event Eventionary Graph),或後面的(Abstract Event Graph),或後面的ELG(Event Logical Graph),定義上而言,爲“事件演化的規律和模式”。

二、抽象事理圖譜VS知識圖譜?

上面所說的事理圖譜,實際上是“抽象事理圖譜”,構成要素是抽象事件以及事件之間的關係,實際上並不是什麼新事物。之前自己整理過一個關於事理圖譜與知識圖譜的對比圖,現在看着,這種對比實際是有問題的:
1、 可比性。
事理圖譜本身並沒有跳出知識圖譜的範疇,兩者不是平級關係,沒有可比性,真的要比,那麼應該是實體知識圖譜和抽象事理圖譜。
2、靜態與動態。
之前的說法是,知識圖譜中存儲的是實體,是靜態知識,事理圖譜中存儲的是動態知識。這種說法是有問題的,靜態和動態如何去區分?名詞性實體就是靜態的,動作性事件就是動態的?還是其中一個事件與另外一種事件之間存在着一種演化關係,這種演化性就動態了?
3、新一代的問題。
我在2018年12月份寫的一篇文章中,介紹性地說,知事理圖譜是下一代知識圖譜,這種說法到現在我實在是比較難以認同(軟文需要),因爲我到目前爲止還找不到這個“下一代”的證據。事理圖譜並沒有解決知識圖譜的任何問題,存儲方式,提取方法等等,沒有發生根本性的改變。所以,不存在什麼下一代的問題,事理圖譜只是一種知識圖譜變體罷了,舊瓶換新水,本質上並沒有改變。

三、抽象事理圖譜是純學術需求?

對於事理是不是純學術需求,這個論斷困擾我很久,我越來越傾向於說YES。主要原因如下:
1、 抽象事件界定模糊。
什麼是事件?什麼是抽象事件?怎樣纔算抽象?抽象事件怎麼去顯示它?這一系列問題到目前並沒有論述清楚。此外,抽象的層級又如何去界定?這些問題都沒有解釋清楚。
2、無法管理、建模能力差。
正是由於對這種抽象性的界定不清楚,所以無法對整個現實社會的事件類型進行建模,這裏所說的建模能力,是指具有可枚舉的層級體系的事件認知,但這個顯然沒有,沒有體系的概念,即便可以引入上下位,那也是相當噪聲的上下位,局部有效的上下位。沒有明確的事件體系和事件類型,整個事理圖譜中的數據猶如一盤散沙、形式混亂,這嚴重導致了事理圖譜在管理、可用上的障礙。
3、事件的識別模糊。
抽象的事件,怎麼去識別邊界?整個事件的抽象問題都沒有定義好,這使得抽取的過程淪爲了一種思路,怎麼抽都行。例如,“我吃了飯,然後去了學校”,識別的事件是“吃了飯”還是“我吃了飯”,“去了學校”,還是“去學校”。這種識別出來的抽象事件其實只是一個事件片段而已,就算抽取出來了,後續的一些再抽象等之類的算法,也只會造成誤差傳播,沒法用。
4、事理圖譜單事件對概率的無效性。
這裏的無效性,指的是事理圖譜在實際的應用過程中,這種概率的無效性,對於一個Ai會出來很多個Bj,針對每一個AiBj都會有條邊出來。雖然可以利用統計手段,對事件的條件概率進行估計,或者放到圖網絡中隨機遊走給出一個實際的數值,但究其根本,取決於曝光度,那就是編輯們的曝光量,而一旦曝光少,但很有可能,這種統計方式是統計不到的。另外,每個AiBj發生的變量絕非單變量,相反多變量多的我們難以想象,曝光量僅僅只是其中之一。
5、事理圖譜單事件鏈條的無效性。
另外一個方面是多度的誤導性。一旦從Ai出來,不斷往後延伸,會得到一系列的Bj,Ck,Dm…等等,越往後,整個鏈條的錯誤率其實越大,原因是:1)抽象事件本身的問題,事件的抽象問題把握不好,A到B還說的是豬肉問題,B到C已經說到感冒問題,這類問題其實特別常見,本質問題是這種事件的上下文信息即語境信息太少,傳遞下來,語境變化太差,整個傳到邏輯就是錯的。2)錯誤的傳播。每條因果關係邊都是失真的,讓他不斷地往後走,失真的會越來越厲害。3)整個傳播邏輯的取捨難度大。假設前2個問題都已經解決,從一個起始事件到一個終止事件,可以有很多種路徑,但哪條路徑的可能性最大,在實現上是很大的問題。
6、對高質量海量語料的高度依賴
對語料的高度依賴性是所謂抽象事理圖譜構建的最大問題之一。這種依賴性體現在“質”和“量”兩個方面上,這裏的“質”是對語料的質量來看,尤其體現在對事理邏輯的表達,因爲有的事理不會很直白的表現出來,如政治領域中的文本,越偏向於對公正純事實的報道就越不可能有事理邏輯的存在,抽象事理是對邏輯的總結,偏向於一種觀點。“量”的表達,是另一個決定因素,如果數據量很少,那麼即便“質”保證了,整個數量很少,也缺乏了實際意義。

四、事理圖譜能用的先決條件

1、 完善的事件體系作爲支撐與靈活可用的事件管理機制
以因果事理圖譜構建的方式來看,屬於一種圍繞因果觸發詞出發的一種因果關聯挖掘,而一直沒有解決事件的這種抽象性問題,所以後續有事件融合(也稱事件共指關係識別)、事件層次抽象的任務。這個任務的最終目標應該是建成一個可用的全局的事件類型體系,採用的是一種自下而上的方式加以構建,難度非常之大。即提出了一個現實問題:是否能夠基於現有的大規模的基礎數據,自動聚類和搭建起整個事件類型體系。
沒有事件體系的事理圖譜是一團散沙,有事件體系但缺乏事件管理機制的事理圖譜則無法應用。這種管理機制,體現在對事理知識庫的動態更新、多類型數據的管理上。
2、 高精準且模塊化的事理組件
事理圖譜中的事件體系問題是應該是決定事理圖譜可用性的根本條件,首先提供高精準的事件類型體系構建方法是相當重要的,如何藉助外部知識庫輔助體系的構建,如何對冗餘的事件體系進行剪枝,如何解決融合和共指問題,是決定體系的必要手段。此外,務必需要確定事理圖譜中的事件定義問題,即3.1的問題。此外,語義外部知識庫,這裏的語義外部知識庫包括各種,如同義詞詞林、hownet, conceptnet等。
3、 必要的領域專家接入
通用的事理圖譜只能是死路一條。抽象事理圖譜對事件的表示打破了領域與領域之間的牆,使得事理邏輯在不同的領域中隨意穿行。領域專家接入,事件的領域分類、事件關係的領域分類都需要花費大量的力氣去做。

五、總結

事理圖譜,是一種純學術需求、無法落地、漏洞百出的新技術或新概念?目前的經驗告訴我,如果不解決以上幾個問題,刻意迴避事理圖譜的一些本質問題,一味地扯概念,寫技術展望帖、刷模型帖,不考慮實際應用需求,那麼只能是紙上談兵。畢竟,現在這樣的氛圍,太濃了。回到開始,事件體系+事件管理機制+領域事理+人機協同,真正把這個踏踏實實地做好,才能真正應用下去,我們團隊,將致力於這方面的工作。

如有自然語言處理、[知識圖譜、事理圖譜]、社會計算、語言資源建設等問題或合作,如果對事件知識庫有興趣的落地或者研究,可聯繫我:
1、我的github項目介紹:https://liuhuanyong.github.io
2、我的csdn博客:https://blog.csdn.net/lhy2014
3、about me:劉煥勇,中國科學院軟件研究所,[email protected]
4、懂預言者得天下,得語言者分天下,得知識邏輯者,遊得天下。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章