知識圖譜:機器學習的完美補充

如今,網絡上可用的信息量驚人,而且還在不斷擴大。 例如,有超過19.4億個與萬維網(the World Wide Web)鏈接的網站,搜索引擎(例如谷歌、必應等)可以通過這些鏈接以極高的精度和速度提供有用的信息。 在大多數成功的搜索引擎中,最重要的核心是知識圖譜(Knowledge Graphs)的使用。 不僅僅是搜索引擎,社交網站(例如Facebook等),電子商務網站(例如Amazon等)也在使用知識圖譜來存儲和檢索有用的信息。

歷史

1960年,語義網絡(Semantic Networks)被髮明以解決對知識表示框架的不斷增長的需求,該框架可以捕獲各種實體——現實世界的對象,事件,情況或抽象概念和關係,最終可以應用於擴展的英語對話任務。語義網絡背後的主要思想是捕獲各種各樣的問題,包括計劃,行動,時間,個人的信念和意圖的表示,並且要籠統地容納每個問題。

根據維基百科(Wikipedia),1980年底,荷蘭的兩所大學啓動了一個名爲知識圖譜的項目,這是一種語義網絡,但是爲了促進圖中的代數運算而增加了一些限制。

在2001年,Tim Berners-Lee創造了語義網(Semantic Web)這個術語,這是語義網絡與Web結合使用的一種應用。

Tim Berners-Lee表示:“語義網是當前Web的擴展,在這種網絡中,信息具有明確的含義,可以更好地使計算機和人們進行合作。”

2012年,Google將其知識圖譜稱爲知識圖譜

定義

每個公司/團體/個人都會創建自己的知識圖版本,以限制複雜性並將信息組織成數據和知識。 例如,Google的知識圖譜,知識庫(Knowledge Vault),微軟的Satori,Facebook的實體圖(Entities Graph)等。

因此,沒有知識圖譜的正式定義。 從廣義上講,知識圖譜是語義網絡的一種變體,具有附加的約束,其範圍,結構,特徵甚至用途還沒有得到完全實現,並且還在開發過程中。

一個知識圖譜的例子

在這裏插入圖片描述

資料來源:Maximilian Nickel等。 知識圖譜的關係機器學習綜述:從多關係鏈接預測到自動化知識圖譜構建

爲什麼要興奮?

隨着時間的流逝,知識圖譜上的機器學習和知識表示學習在規模和深度上正在迅速發展,但發展方向不同。 一方面,機器學習技術越來越擅長在各種數據集上執行各種任務(例如,分類,生成等),具有很高的精度和召回率。 另一方面,知識表示帶來了以高可靠性、可解釋性和可重用性表示實體和關係的能力。 知識表示學習的最新進展包括從圖中挖掘邏輯規則。

然而,將知識圖譜和機器學習結合在一起將系統地提高系統的準確性,並擴展機器學習能力的範圍。 例如,從機器學習模型推斷出的結果將具有更好的可解釋性和可信賴性。

以下是將知識圖譜引入機器學習有益的一些機會:

數據不足

擁有足夠的數據來訓練機器學習模型非常重要。 在數據稀疏的情況下,知識圖譜可用於增強訓練數據,例如,用相似類型的實體名稱替換原始訓練數據中的實體名稱。 這樣,可以使用知識圖譜創建大量的正面和負面例子。

Zero-Shot Learning

如今,機器學習模型的主要挑戰在於,如果沒有合適的訓練數據,就無法區分兩個數據點。 在機器學習中,這被視爲零樣本學習(Zero-Shot Learning)問題。 這就是知識圖譜可以發揮很大作用的地方。 機器學習模型的歸納可以用知識圖譜的推理來補充,例如,用訓練數據中未出現的情景類型的圖片。

可解釋性

機器學習行業的主要問題之一是解釋機器學習系統做出的預測。 一個問題是導致機器學習模型預測的隱式表示。 知識圖譜可以通過將解釋映射到圖中的某些適當節點並總結決策過程來緩解此問題。

注意:以上機會在“知識圖譜:語義網上的知識表示的新方向”研討會報告(Dagstuhl研討會18371)中有更詳細的說明。

一些用例

  • 問答(Question Answering)是知識圖譜的最常用應用之一。知識圖譜包含大量信息,問答是幫助最終用戶更有效、更高效地從知識圖譜檢索信息的好方法。
  • 存儲研究信息(Storing Information of Research)是知識圖譜另一個有用的應用。最近,許多公司正在使用知識圖譜來存儲從研究的各個階段生成的信息,這些信息可用於構建可訪問的模型、風險管理、過程監控等。
  • Netflix使用知識圖譜爲其推薦系統存儲大量多樣的信息,這有助於查找電影、電視節目、人物等之間的關係。隨後,這些關係可以用來預測客戶接下來可能想看什麼。
  • 供應鏈管理(Supply Chain Management)也得益於知識圖譜的使用。公司可以輕鬆地跟蹤不同部件的庫存、所涉及的人員、時間等,從而使他們可以更快、更經濟地移動物品。

還有很多…

挑戰

  1. 可以在創建知識圖譜的過程中應用一組連貫的最佳實踐,這將有助於工程師、開發人員和研究人員之間理解和重用知識圖譜。
  2. 給定一組非結構化數據和知識圖譜,知識整合(knowledge integration)的問題是確定數據中提到的實體是否與知識圖譜中存在的真實實體匹配。儘管可以使用機器學習算法解決此問題,但是這些算法的結果直接取決於訓練數據的質量。給定各種各樣的數據集,知識整合變得非常困難。
  3. 知識不是一成不變的,而是不斷髮展的。例如,如果知識圖譜記錄了患者的健康狀況,則在特定時刻存儲的數據在以後的某個時刻可能是錯誤的。那麼,我們如何捕捉知識的這種不斷髮展的本質呢?
  4. 如何評估知識圖譜?哪個質量改進(例如完整性,正確性,鏈接性等)更重要?

參考資源

[1] Knowledge Graph: The Perfect Complement to Machine Learning
[2] Bonatti, Piero A. et al. “Knowledge Graphs: New Directions for Knowledge Representation on the Semantic Web (Dagstuhl Seminar 18371).” Dagstuhl Reports 8 (2018): 29–111.
[3] Paulheim, Heiko. “Knowledge graph refinement: A survey of approaches and evaluation methods.” Semantic Web 8 (2016): 489–508.
[4] Nickel, Maximilian et al. “A Review of Relational Machine Learning for Knowledge Graphs.” Proceedings of the IEEE 104 (2015): 11–33.
[5] Allen, J. and A. Frisch (1982). “What’s in a Semantic Network”. In: Proceedings of the 20th. Annual Meeting of ACL, Toronto, pp. 19–27.
[6] Shadbolt, Nigel et al. “The Semantic Web Revisited.” IEEE Intelligent Systems 21 (2006): 96–101.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章