【再認識】認知智能下需要的實體知識與事件知識

1，知識圖譜理想上雙層結構，實際單層
知識圖譜是個雙層結構。模式層和實例層，模式層，又稱爲本體層，模式層分成兩個部分，一個是概念的上下層級，另一個是概念之間的關係層或者概念的自身屬性信息層。前者規定了概念類之間的類關係，賦予了概念之間可以繼承的特性，後者定義了不同類自身的屬性和關係變體。嚴格意義上來說，知識圖譜中的模式層對數據項的取值是有嚴格定義的，例如數據庫中的各種數據類型(字符串型、float型、list型)，但這種做法在工業界往往用不到，因爲充分適應這種數據類型的規定是非常需要費時費力的。在很多人的認知裏，知識圖譜就是知識三元組，僅保留實例層，這是現實中的大現實，因爲這來的快，拿來就用。表面上看起來很舒服，搞上面這一層太費腦筋，而且有太多業務知識，很多人辦不到，尤其是焦慮的工業界。
2，知識圖譜是可解釋性，也是個災難。
知識圖譜=可解釋性，這種論斷被炒的很火，不能說對，也不能說錯，標杆在於對可解釋的定義。大體認爲知識圖譜是可解釋的是沿襲了“眼見爲實”的思維，即，我看到的實實在在的東西，可以形式化的顯示性地表達出來時，我才認爲我可以把一個問題解釋給對此毫無背景的人聽。也就是看重的是一種過程性的符號佐證，一種缺乏思考能力和基礎知識卻想掌握某一現象的人來說的。而深度學習中學習到的係數或值缺少實際的物理意義，從而被認爲是不瞭解釋的，因爲缺乏形式化。如果我們認可了這樣一種標杆，那麼也自然成立，但這種成立性帶來了巨大的災難，即可解釋性的數據荒災難，爲了支持一個既定的事實，背後需要大量的知識作爲支撐，但現在的規模是遠遠不夠的，幾千億，幾萬億估計都不夠。退回來說，這個知識的來源，人工編輯收集的方式很侷限，不可面面俱到。基於抽取的方法可以海量的挖掘，撇開技術性能不說，海量挖掘的目的在於知識的曝光度，曝光纔是抽取的前提，但有太多長尾的知識是壓根不被報道或寫出來的，換句話說，目前可以拿到的數據資源可能只是所有重要知識的百分之幾，甚至千分之幾，萬分之幾。所以，認定了知識圖譜是通向可解釋智能的路，那麼這條路註定是個big problem.
3，認知需要層級性的動作性和實體性知識基礎
知識圖譜是認知智能的語義基石，基於知識圖譜中所存儲的知識，機器可以像人一樣去進行知識應用，知識推理筆記看過很多博文的人都會有這種的認同感，這沒有什麼問題。認知，是人類相較於其他動物最大的區別，在我看來，認知能力主要包括概括能力和類推能力兩種，概括能力是能夠基於大量既定事實總結經驗規律模式，並形成具有一定層級的模式思維能力。類推能力，更像是概括能力的反向用力以及應用，即常說的思考或舉一反三。因此，既然認定知識圖譜是認知的基礎，那勢必需要滿足這兩種基礎，即概括基礎和類推基礎。
概括基礎形式化體現出來，是具有概括性的能力，以概括抽象性的能力以及抽象概念性知識庫作爲輸出。說到這個，又要說到人的認知體系問題，人類的認知體系是以名詞性實體爲核心還是以動詞性事件爲核心的，不同的核心決定了不同的概括需求。事實上，作爲一個由社會活動驅動的人類，是動詞性事件爲核心的，動詞性事件支配名詞性實體，因此概括性能力應該包括名詞性能力和動詞性能力。但即便是如此，人類在顯式的表達自己的知識時，還是以選擇名詞性實體進行表達，是因爲名詞性實體比事件更爲細粒度，也更爲穩定，也是好習得，好操作，即先知道what is what再知道do what 。
名詞性能力這方面代表性的工作有大詞林、wordnet，這兩個是我認爲真正意義上做到這點的工作，一個是抽象，二是分層，沒有進行分層的概念性是零散的(一堆高度稀疏的isa），這方面的工作包括cnprobase，以及conceptgraph。但是，對於這種概括性知識圖譜而言，還是基本上集中在名詞性實體上，究其原因，一是因爲好建模(可以利用實體鏈接，背後有百科類實體作爲支撐，好操作)，二是因爲數據的可獲得性，有大量認爲預定好的層級(目錄樹，網頁導航，黃頁)等。當然，在這個方面，各大電商，醫療，工業，領域等積累了大量的材料，如阿里商品等，基於商品的挖掘，可以快速搭建一個面向商品消費的層級性實體概括性知識庫。
動作性的概括性圖譜目前還相對空白。與名詞概括性圖譜不一樣，名詞性的概括性可以用is-a表達，而動詞性概括圖譜更多的是一種part-of關係，事件具有組成性的特徵。相關的工作更多的是集中在事件的邏輯性的挖掘上(因果邏輯，條件邏輯，上下位邏輯)。有必要說明的是，其中的上下位(包括基於名詞性實體的上下位以及基於動詞性實體的上下位)是這種概括性圖譜中的一部分。比如結婚這個動作，包括領證、辦喜酒、發請帖等幾個組成性事件。前者所描述的是一種諸如貨幣貶值下的美元貶值、人民幣貶值、日元貶值。一種在形式上有交集，可以找到規則，另一種沒有形式規則可言。所以，前者的挖掘難度要比後者簡單地多，而意義上後者則要強得多。
4，事件類圖譜的殊途同歸：向上概括與向下泛化
漫步的抽象事理圖譜。同一個事件知識，如果只關注單個事件集合之間的關係(上下位，組成、因果、時序)，那麼就會走向具有三層結構的事件類知識庫(抽象事理圖譜)，這類圖譜的特點是隻考慮事件名以及事件名個體經過加工、抽象、模式規約後形成的體系關係，而不考慮具體的事件富信息。其中的三層結構，第一層是事件頂層，也可稱爲事件類型，用最頂層的事件類型名稱對下沿事件進行統籌。第二層，是事件抽象模式層，也叫事件類簇代表，統籌基於該事件模式下存在不同表述的事件個體。第三層，是事件事例層，屬於具體的事件名稱(如巴西發生大火)。
周全的領域事件圖譜。與漫步的抽象事理圖譜不同，它考慮的更爲周全，且體現在領域性上。周全，即在滿足事件名的基礎上，能夠以事件槽的方式挖掘事件的不同側面信息，例如殺人事件中的時間、被害人、犯罪嫌疑人、地點等。領域性，即該事件領域的刻畫，領域的事件具有領域的屬性特徵，具有領域的槽位側面，用於描述領域性的事件信息。當然，這種領域性包括通用領域和垂直領域(金融、社會治理等)，領域的槽位數量和角度都各不相同。領域事件圖譜藉助這種信息的複雜性，能夠支持更多方位的信息檢索、分析和追蹤服務。但往往會因爲包袱過重，無法大規模施展開來。這種包袱體現在槽位的定義，事件的定義上，通用的槽位數量太少(如SEM設計的事件本體）不足以體現領域特性和功效，領域的槽位(如ACE實在有限，framenet略多實則有限）需要精心設計，不具有擴展性，工程週期長。
漫步與包袱互助，事件快跑。抽象事理圖譜甩掉了包袱，在抽象概括性知識上深耕，事件類圖譜在實例事件上小步慢行。兩者分別從向上和向向下兩個角度在做(腦補亞里斯多德與阿基米德的畫面)。兩者融合是一個大方向(或許早已有之，但沒有大規模工程化，技術手段需要深思考）能夠樹立起整個事件知識基石。抽象事理圖譜的技術難點和核心在於“抽象”二字，把握抽象粒度，動態變通事件體系，在此基礎上再進行平級邏輯挖掘，終極目標在於抽象能力的自主習得和體系的自我構建、更新與完善。領域事件類圖譜核心和難點在於“領域”兩個字，自動梳理和劃分領域事件類別，自我習得既定類別的具體槽位，突破人工手動，解放業務專家。兩類圖譜，以事件名或者事件實例作爲中間鍵進行連接。
5，實體性知識圖譜與事件類圖譜的融合
事件類圖譜以事件爲核心，事件中包括各類實體，在類型劃分上，實體可以是領域性實體，也可以是開放域實體，一般來說，實體類型和實體信息越豐富，事件類圖譜與實體類知識圖譜的聯通度和稠密度就越高。以金融領域來說，可以鏈接公司、商品、貨幣、醫藥、水果、人物、高管等實體，開放域的話，可以通過概念性實體的類型進行識別。識別的過程，包括實體識別和實體鏈接兩個部分(對於具有歧義的實體尤其有必要，在實際操作中根據實際情況進行考慮)。

【再認識】認知智能下需要的實體知識與事件知識

認知提升的方法

螞蟻面試：Springcloud核心組件的底層原理，你知道多少？

C#開源的兩款功能強大的錄屏神器

助力句子變換：35W抽象、43W同義、13W簡稱三大知識庫對外開源

事件抽取中的“門面技術”：事件名稱生成淺談

沒錯，繼事理圖譜後，我們又搞事情了：數地工場自然語言處理語義開放平臺正式對外發布！

事理圖譜：一種純學術需求、無法落地、漏洞百出的新技術或新概念？

【再認識】認知智能下需要的實體知識與事件知識

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結