知識圖譜的概念、應用與構建

1、什麼是知識圖譜?

互聯網時代,搜索引擎是人們在線獲取信息和知識的重要工具。當用戶輸入一個查詢詞,搜索引擎就會返回它認爲與這個關鍵詞最相關的網頁。

直到2012年5月,搜索引擎巨頭谷歌在搜索頁面中首次引入了“知識圖譜”的概念:用戶除了得到搜索網頁鏈接,還將看到與查詢詞有關的更加智能化的答案。

如下圖,當用戶輸入居里夫人這個查詢詞時,谷歌會在頁面右側提供居里夫人的詳細信息,如個人簡介、出生時間等等。
在這裏插入圖片描述
知識圖譜裏通常用“實體(Entitiy)”來表達圖的節點,用“關係(Relation)”來表達圖裏的邊。
在這裏插入圖片描述
上圖是一個汽車的知識圖譜的例子,汽車可以基於品牌,結構,能源和級別進行劃分,品牌等又可以進行細分。

從雜亂的網頁到結構化的實體知識,搜索引擎利用知識圖譜爲用戶提供更具條理的信息,甚至順着知識圖譜可以探索更深入、廣泛和完整的知識體系,讓用戶發現意想不到的知識。

傳統搜索引擎,以百度爲例,在過去,當我們想知道“泰山”的相關信息時,我們會在百度上搜索“泰山”,它會嘗試將這個字符串與百度抓取的大規模網頁做對比,根據網頁與這個查詢詞的相關程度,以及網頁本身的重要性,對網頁進行排序,作爲搜索結果返回給用戶。而用戶所需的與“泰山”相關的信息,就還要自己動手,訪問這些網頁尋找。

傳統搜索引擎的工作方式表明,它只是機械地對比查詢詞和網頁之間的匹配關係,並沒有真正地理解用戶要查詢的到底是什麼,遠遠不夠聰明。

知識圖譜會將“泰山”理解爲一個“實體”,也就是現實世界中的事物。這樣搜索引擎會在頁面搜索結果的右側顯示其基本資料,例如地理位置、海拔高度等。此外,還會告訴我們一些相關的“實體”,如嵩山等。

2、什麼是信息提取?

對於結構化與半結構化數據需要複雜表數據的處理與定義抽取的包裝器等方式將數據映射成知識圖譜數據。

對於非結構化的純文本數據需要藉助自然語言處理等技術來自動提取出結構化信息。這個過程一般稱爲信息抽取。

在這裏插入圖片描述

3、自然語言理解

自然語言理解本質是結構預測,自然語言理解的衆多人物,包括並不限於中文分詞、詞性標註、命名實體識別、共指消解、句法分析、詞義角色標註等,都是在對文本序列背後特定語義結構進行預測。

3.1 信息抽取的主要任務

  • 命名實體識別;
  • 關係抽取;
  • 實體統一;
  • 指代消解;

在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章