AI前線(2020年11月)

卷首語:知識圖譜構建的研究已走入下半場,但大規模落地應用仍需時間

作者 | 李冬梅

採訪嘉賓 | 唐傑

知識圖譜是近年來人工智能技術蓬勃發展的核心驅動力之一,已廣泛應用在金融、電商、醫療、政務等衆多領域,經過短短几年的發展,熱度依舊不減。未來,知識圖譜將會是怎樣的發展趨勢?

知識圖譜的下一步是認知圖譜。

深度學習時代的知識圖譜擁有大量的實體和關係,然而大量不同的關係上很難定義邏輯規則,在知識圖譜上“推理”也轉入黑盒模型預測的範式。Bordes 等人的知識庫結構嵌入和 Socher 等人的 Neural Tensor Network(NTN)率先將神經網絡引入 知識圖譜 的研究,特別是後者將知識圖譜中實體和關係的單詞嵌入的平均作爲該節點的表示,訓練神經網絡判斷(頭實體、關係、尾實體)的三元組是否爲真,在知識圖譜補全(推理)任務中取得了很好的效果。

知識圖譜的一個重要特點就是可解釋性和發現新知識的能力,這是目前深度學習方法很難做到的。知識圖譜把領域知識或常識整理成結構化的形式,然後在此基礎上進行推理,類似於人腦的功能。比如評審專家的推薦,使用深度學習的方法進行訓練,專家的查找過程是個黑盒操作,無法追溯推薦的理由。使用知識圖譜建立的高精度的專家畫像,及專家關係網絡能夠爲專家推薦提供可解釋性,比如評審專家的學科相似度、評審人和專家的關係等等。

但知識圖譜同樣存在不足。知識圖譜的缺點本質上都是“二元一階謂詞邏輯”作爲知識表示的本身缺陷帶來的。知識表示長久以來研究者孜孜不倦追尋探索的話題,完全依靠(頭實體、關係、尾實體)這樣的命題,儘管能表示大部分簡單事件或實體屬性,對於複雜知識卻束手無策。

近年得益於自然語言處理的極大進步,BERT 等預訓練模型帶來的文本理解和檢索能力使得我們可以在原始文本上進行理解和推理,例如 Chen 等人的 DrQA 就是使用神經網絡直接從文本中抽取問題答案,掀起開放領域問題的新熱潮。另一方面,我們必須保持知識圖譜的圖結構帶來的可解釋性和精準穩定的推理能力。例如,知識圖譜很難構建百分百正確的、超大規模的知識圖譜,因此,針對這些不足,認知圖譜應運而生。

本質上,認知圖譜的改進思路是減少圖譜構建時的信息損失,將信息處理壓力轉移給檢索和自然語言理解算法,同時保留圖結構進行可解釋關係推理。認知圖譜主要有三方面創新,分別對應人類認知智能的三個方面:

1.(長期記憶)直接存儲帶索引的文本數據,使用信息檢索算法代替知識圖譜的顯式邊來訪問相關知識;

2.(系統一推理)圖譜依據查詢動態、多步構建,實體節點通過相關實體識別模型產生;

3.(系統二推理)圖中節點產生的同時擁有上下文信息的隱表示,可通過圖神經網絡等模型進行可解釋的關係推理。

事實上,認知圖譜正是由人類認知過程所啓發,“快速將注意力定位到相關實體”和“分析句子語意進行推斷”是兩種不同的思維過程。在認知學裏,著名的“雙過程理論(dual process theory)”認爲,人的認知分爲兩個系統,系統一(System 1)是基於直覺的、無知覺的思考系統,其運作依賴於經驗和關聯;而系統二(System 2)則是人類特有的邏輯推理能力,此係統利用工作記憶(working memory)中的知識進行慢速但是可靠的邏輯推理,系統二是顯式的,需要意識控制的,是人類高級智能的體現。

認知圖譜首先由清華大學和阿里巴巴在 2018 年的中國計算機大會上提出,後來 Ding 等人將其應用於多跳開領域閱讀理解問答中。傳統方法中,開領域問答往往依靠大規模的知識圖譜,而閱讀理解問答一般面向單段,此時閱讀理解的 NLP 模型,例如 BERT,可以直接處理。然而,這樣的方法在多跳(推理)問答中存在“短視檢索”的問題,即在幾跳(幾步推理)的文本和問題回答中,真正的答案可能和問題相關性較低,很難被直接檢索到,這導致了效果不佳。認知圖譜問答提出一種新穎的迭代 框架:算法使用兩個系統來維護一張認知圖譜,系統一在文本中抽取與問題相關的實體名稱並擴展節點和彙總語義向量,系統二利用圖神經網絡在認知圖譜上進行推理計算。

基於認知圖譜技術,北京智譜華章科技有限公司(以下簡稱:智譜.AI)還研發了支持知識推理的科技情報挖掘系統。團隊將認知圖譜技術作爲知識圖譜的補齊任務,針對由現實世界中的實體和關係組成的知識圖譜,提出了 CogKR 框架,基於認知科學中的雙過程理論,通過構建認知圖來完成在已知頭實體和關係類型情況下推理尾實體的任務。比起基於嵌入的方法,該方法多跳推理的能力更強,並且具有更好的可解釋性。比起過去的基於路徑的多跳推理方法,該方法能夠利用更加複雜的子圖結構進行推理,而不會侷限在單條路徑,因此有更好的準確性。

知識圖譜的構建已走到下半場

從知識圖譜的構建技術看,它經歷了由人工構建到羣體智慧構建到自動獲取、構建的過程。人工構建是早期知識圖譜構建的主要方法,手工構建的優點首先是準確率較高,其次是人類便於理解,缺點是效率低、成本高,構建出的圖譜規模有限。

自動或半自動的構建方法,可以不同程度的提高構建效率,降低成本,目前很多方法已經能夠實現億級知識圖譜的構建,這也得益於結構化和半結構化數據的積累。半自動化的知識圖譜構建方法在將來一段時間內仍然會是主流,尤其對醫療、安全和金融等領域,數據質量要求較高,需要通過人工審覈保證準確性。

在唐傑教授看來,認爲知識圖譜的構建研究已經走到下半場,知識圖譜的應用還沒有走到下半場,比如知識推理。目前已經有相當規模的工業級知識圖譜已經落地,尤其是在金融、電商、醫療、社交、文娛、教育等領域。比如企查查、天眼查等企業知識圖譜、Facebook、騰訊等社交知識圖譜、美團的美食知識圖譜等。

智譜.AI 也在科技情報領域構建了億級科技知識圖譜,包括技術、學者、論文、機構等實體、關係及屬性信息,通過網絡挖掘算法實現專家人才發現、技術洞察與趨勢分析等應用。此外,公司還和阿里合作構建了千億級的電商知識圖譜,目前也已經應用於手機淘寶的推薦,將知識圖譜自動構建準確率從 55% 提升到 88%,全面支撐手機淘寶搜索和推薦。

目錄

生態評論

中臺的邪,爲什麼CXO們都信了?

重磅訪談

愛奇藝技術總監朱儁敏:奇觀識別方案從雲遷移到端的探索和實踐

落地實踐

端上智能在快手上下滑推薦實現APP時長+1%的應用實踐

推薦閱讀

留給快手的時間不多了

被嫌棄的35歲程序員

精選論文導讀

效果不降效率提升11.4倍,小米AI實驗室提出針對中文命名實體識別的多孔詞格編碼器

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章