1《大詞林》簡介
《大詞林》(http://101.200.120.155/)是由哈爾濱工業大學社會計算與信息檢索研究中心推出,由我中心秦兵教授和劉銘副教授主持開發,是一個自動構建的大規模開放域中文知識庫。自2014年11月推出第一版《大詞林》,《大詞林》共經歷了兩次大的版本變化。第一版的《大詞林》包含了自動挖掘的實體和細粒度的上位概念詞,類似一個大規模的漢語詞典,其特點在於自動構建、自動擴充,細粒度的上下位層次關係。第二版的《大詞林》引入了實體的義項和關係、屬性數據,將每一個實體的義項唯一對應到細粒度的上位詞概念路徑,讓《大詞林》中實體的含義更加清晰。
相比於傳統的開放域實體知識庫,《大詞林》的特點在於:1)構建不需要領域專家的參與,而是基於多信息源自動獲取實體類別並對可能的多個類別進行層次化,從而達到知識庫自動構建的效果。2)其數據規模可以隨着互聯網中實體詞的更新而擴大,很好地解決了以往的人工構建知識庫對開放域實體的覆蓋程度極爲有限的問題。3)每一個實體的義項均能夠唯一對應到細粒度的上位詞概念路徑且具有豐富的實體和關係數據,能夠更加清晰明確的展示實體的含義。
2 開源數據規模和用途
本次,我們開源了《大詞林》中的75萬的核心實體,和該核心實體對應的細粒度概念詞(共1.8萬概念詞,300萬實體-概念元組),及相關的關係三元組(共300萬)。這75萬核心實體列表涵蓋了常見的人名、地名、物品名等術語。概念詞列表則包含了細粒度的實體概念信息。藉助於細粒度的上位概念層次結構和豐富的實體間關係,本次開源的數據能夠爲智能服務系統,例如問句相似度計算、智能問答等技術提供數據支持。
在http://101.200.120.155/browser/頁面下有全部開源數據的下載鏈接,用戶也可直接利用下面的鏈接直接下載全部數據。數據包括JSON格式的schema,同時包括實體列表、概念列表、實體-概念詞列表和實體元組列表。
下載地址:http://www.openkg.cn/dataset/hit
圖1 開源實體的抽樣分佈情況
數據格式如下:
Schema文件, bigcilin_schema.json
實體詞表, entity.txt
實體名1
實體名2
……
概念詞表, concept.txt
概念詞1
概念詞2
……
實體-概念詞表, hyper.txt
實體名1,上位詞1
實體名2, 上位詞2
……
實體三元組表, triple.txt
實體名1,關係名1,實體名1
實體名1,關係名2,實體名2
……
爲方便用戶查看不同類別下的實體,將本次開源的實體中常見的類別放在此demo下http://101.200.120.155/browser/。爲加快加載速度,此demo僅展示了類別下的抽樣實體。
圖2 開源實體按類別瀏覽
3 結語
如需要查詢更多的數據可使用《大詞林》系統網站(http://101.200.120.155/),該系統支持用戶查詢任意實體,並以有向圖的形式展現實體的層次化概念體系,同時支持以目錄方式瀏覽部分公開的知識庫。經過如上的改進後,目前《大詞林》2.0版已擁有實體30,102,845 (三千萬),上位詞182,079(十八萬),優質的實體上下位關係對15,577,846(一千五百萬對),屬性-值對79,568,791(七千九百萬對),關係(屬性)數436,961(四十三萬)。有關《大詞林》的功能介紹及詳細的接口說明請聯繫[email protected]。
4 開源協議
《大詞林》(http://101.200.120.155/)是由哈爾濱工業大學社會計算與信息檢索研究中心推出,由我中心秦兵教授和劉銘副教授主持開發,是一個自動構建的大規模開放域中文知識庫。本次開源是《大詞林》中的75萬核心實體和核心實體對應的1.8萬細粒度概念詞表,其中核心實體涵蓋了包括常見的人名、地名、物品名等術語,概念詞列表則包含了細粒度的實體概念信息。同時開源的還包括由實體和概念形成的上下位關係列表(300萬)和實體對應的關係三元組列表(300萬)。本批數據面向國內外大學、中科院各研究所以及個人研究者開放,上述開放資源可免費用於學術研究,如要商用,需付費購買。如需完整版數據或諮詢購買事宜請向[email protected]諮詢。如果您在《大詞林》開源數據基礎上發表論文或取得科研成果,請您在發表論文和申報成果時聲明“使用了哈工大社會計算與信息檢索研究中心研製的《大詞林》”,同時發信給 [email protected],說明發表論文或申報成果的題目、出處等。
5 作者介紹
張裕舟 哈爾濱工業大學社會計算與信息檢索研究中心 [email protected]
佘琪星 哈爾濱工業大學社會計算與信息檢索研究中心 [email protected]
王必聰 哈爾濱工業大學社會計算與信息檢索研究中心 [email protected]
劉銘 哈爾濱工業大學社會計算與信息檢索研究中心 [email protected]
秦兵 哈爾濱工業大學社會計算與信息檢索研究中心 [email protected]
劉挺 哈爾濱工業大學社會計算與信息檢索研究中心 [email protected]
點擊閱讀原文,下載《大詞林》數據。
OpenKG
開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。