【再認識】認知智能下需要的實體知識與事件知識

1,知識圖譜理想上雙層結構,實際單層
知識圖譜是個雙層結構。模式層和實例層,模式層,又稱爲本體層,模式層分成兩個部分,一個是概念的上下層級,另一個是概念之間的關係層或者概念的自身屬性信息層。前者規定了概念類之間的類關係,賦予了概念之間可以繼承的特性,後者定義了不同類自身的屬性和關係變體。嚴格意義上來說,知識圖譜中的模式層對數據項的取值是有嚴格定義的,例如數據庫中的各種數據類型(字符串型、float型、list型),但這種做法在工業界往往用不到,因爲充分適應這種數據類型的規定是非常需要費時費力的。在很多人的認知裏,知識圖譜就是知識三元組,僅保留實例層,這是現實中的大現實,因爲這來的快,拿來就用。表面上看起來很舒服,搞上面這一層太費腦筋,而且有太多業務知識,很多人辦不到,尤其是焦慮的工業界。
2,知識圖譜是可解釋性,也是個災難。
知識圖譜=可解釋性,這種論斷被炒的很火,不能說對,也不能說錯,標杆在於對可解釋的定義。大體認爲知識圖譜是可解釋的是沿襲了“眼見爲實”的思維,即,我看到的實實在在的東西,可以形式化的顯示性地表達出來時,我才認爲我可以把一個問題解釋給對此毫無背景的人聽。也就是看重的是一種過程性的符號佐證,一種缺乏思考能力和基礎知識卻想掌握某一現象的人來說的。而深度學習中學習到的係數或值缺少實際的物理意義,從而被認爲是不瞭解釋的,因爲缺乏形式化。如果我們認可了這樣一種標杆,那麼也自然成立,但這種成立性帶來了巨大的災難,即可解釋性的數據荒災難,爲了支持一個既定的事實,背後需要大量的知識作爲支撐,但現在的規模是遠遠不夠的,幾千億,幾萬億估計都不夠。退回來說,這個知識的來源,人工編輯收集的方式很侷限,不可面面俱到。基於抽取的方法可以海量的挖掘,撇開技術性能不說,海量挖掘的目的在於知識的曝光度,曝光纔是抽取的前提,但有太多長尾的知識是壓根不被報道或寫出來的,換句話說,目前可以拿到的數據資源可能只是所有重要知識的百分之幾,甚至千分之幾,萬分之幾。所以,認定了知識圖譜是通向可解釋智能的路,那麼這條路註定是個big problem.
3,認知需要層級性的動作性和實體性知識基礎
知識圖譜是認知智能的語義基石,基於知識圖譜中所存儲的知識,機器可以像人一樣去進行知識應用,知識推理筆記看過很多博文的人都會有這種的認同感,這沒有什麼問題。認知,是人類相較於其他動物最大的區別,在我看來,認知能力主要包括概括能力和類推能力兩種,概括能力是能夠基於大量既定事實總結經驗規律模式,並形成具有一定層級的模式思維能力。類推能力,更像是概括能力的反向用力以及應用,即常說的思考或舉一反三。因此,既然認定知識圖譜是認知的基礎,那勢必需要滿足這兩種基礎,即概括基礎和類推基礎。
概括基礎形式化體現出來,是具有概括性的能力,以概括抽象性的能力以及抽象概念性知識庫作爲輸出。說到這個,又要說到人的認知體系問題,人類的認知體系是以名詞性實體爲核心還是以動詞性事件爲核心的,不同的核心決定了不同的概括需求。事實上,作爲一個由社會活動驅動的人類,是動詞性事件爲核心的,動詞性事件支配名詞性實體,因此概括性能力應該包括名詞性能力和動詞性能力。但即便是如此,人類在顯式的表達自己的知識時,還是以選擇名詞性實體進行表達,是因爲名詞性實體比事件更爲細粒度,也更爲穩定,也是好習得,好操作,即先知道what is what再知道do what 。
名詞性能力這方面代表性的工作有大詞林、wordnet,這兩個是我認爲真正意義上做到這點的工作,一個是抽象,二是分層,沒有進行分層的概念性是零散的(一堆高度稀疏的isa),這方面的工作包括cnprobase,以及conceptgraph。但是,對於這種概括性知識圖譜而言,還是基本上集中在名詞性實體上,究其原因,一是因爲好建模(可以利用實體鏈接,背後有百科類實體作爲支撐,好操作),二是因爲數據的可獲得性,有大量認爲預定好的層級(目錄樹,網頁導航,黃頁)等。當然,在這個方面,各大電商,醫療,工業,領域等積累了大量的材料,如阿里商品等,基於商品的挖掘,可以快速搭建一個面向商品消費的層級性實體概括性知識庫。
動作性的概括性圖譜目前還相對空白。與名詞概括性圖譜不一樣,名詞性的概括性可以用is-a表達,而動詞性概括圖譜更多的是一種part-of關係,事件具有組成性的特徵。相關的工作更多的是集中在事件的邏輯性的挖掘上(因果邏輯,條件邏輯,上下位邏輯)。有必要說明的是,其中的上下位(包括基於名詞性實體的上下位以及基於動詞性實體的上下位)是這種概括性圖譜中的一部分。比如結婚這個動作,包括領證、辦喜酒、發請帖等幾個組成性事件。前者所描述的是一種諸如貨幣貶值下的美元貶值、人民幣貶值、日元貶值。一種在形式上有交集,可以找到規則,另一種沒有形式規則可言。所以,前者的挖掘難度要比後者簡單地多,而意義上後者則要強得多。
4,事件類圖譜的殊途同歸:向上概括與向下泛化
漫步的抽象事理圖譜。同一個事件知識,如果只關注單個事件集合之間的關係(上下位,組成、因果、時序),那麼就會走向具有三層結構的事件類知識庫(抽象事理圖譜),這類圖譜的特點是隻考慮事件名以及事件名個體經過加工、抽象、模式規約後形成的體系關係,而不考慮具體的事件富信息。其中的三層結構,第一層是事件頂層,也可稱爲事件類型,用最頂層的事件類型名稱對下沿事件進行統籌。第二層,是事件抽象模式層,也叫事件類簇代表,統籌基於該事件模式下存在不同表述的事件個體。第三層,是事件事例層,屬於具體的事件名稱(如巴西發生大火)。
周全的領域事件圖譜。與漫步的抽象事理圖譜不同,它考慮的更爲周全,且體現在領域性上。周全,即在滿足事件名的基礎上,能夠以事件槽的方式挖掘事件的不同側面信息,例如殺人事件中的時間、被害人、犯罪嫌疑人、地點等。領域性,即該事件領域的刻畫,領域的事件具有領域的屬性特徵,具有領域的槽位側面,用於描述領域性的事件信息。當然,這種領域性包括通用領域和垂直領域(金融、社會治理等),領域的槽位數量和角度都各不相同。領域事件圖譜藉助這種信息的複雜性,能夠支持更多方位的信息檢索、分析和追蹤服務。但往往會因爲包袱過重,無法大規模施展開來。這種包袱體現在槽位的定義,事件的定義上,通用的槽位數量太少(如SEM設計的事件本體)不足以體現領域特性和功效,領域的槽位(如ACE實在有限,framenet略多實則有限)需要精心設計,不具有擴展性,工程週期長。
漫步與包袱互助,事件快跑。抽象事理圖譜甩掉了包袱,在抽象概括性知識上深耕,事件類圖譜在實例事件上小步慢行。兩者分別從向上和向向下兩個角度在做(腦補亞里斯多德與阿基米德的畫面)。兩者融合是一個大方向(或許早已有之,但沒有大規模工程化,技術手段需要深思考)能夠樹立起整個事件知識基石。抽象事理圖譜的技術難點和核心在於“抽象”二字,把握抽象粒度,動態變通事件體系,在此基礎上再進行平級邏輯挖掘,終極目標在於抽象能力的自主習得和體系的自我構建、更新與完善。領域事件類圖譜核心和難點在於“領域”兩個字,自動梳理和劃分領域事件類別,自我習得既定類別的具體槽位,突破人工手動,解放業務專家。兩類圖譜,以事件名或者事件實例作爲中間鍵進行連接。
5,實體性知識圖譜與事件類圖譜的融合
事件類圖譜以事件爲核心,事件中包括各類實體,在類型劃分上,實體可以是領域性實體,也可以是開放域實體,一般來說,實體類型和實體信息越豐富,事件類圖譜與實體類知識圖譜的聯通度和稠密度就越高。以金融領域來說,可以鏈接公司、商品、貨幣、醫藥、水果、人物、高管等實體,開放域的話,可以通過概念性實體的類型進行識別。識別的過程,包括實體識別和實體鏈接兩個部分(對於具有歧義的實體尤其有必要,在實際操作中根據實際情況進行考慮)。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章