論文淺嘗 | Data Intelligence - 多篇語義資源論文

本文轉載自公衆號:DI數據智能 。 


              

編者按:Data Intelligence最新發表一組語義資源論文,包括世界著名語義網技術專家荷蘭阿姆斯特丹自由大學計算機科學系Frank van Harmelen教授團隊的Constructing and Cleaning Identity Graphs in the LOD Cloud,人工智能和語義網研究領域國際知名學者、美國倫斯勒理工學院Deborah McGuinness教授團隊的The Semantic Data Dictionary – An Approach for Describing and Annotating Data,英國開放大學研究者團隊的The Computer Science Ontology: A Comprehensive Automatically-Generated Taxonomy of Research Areas,美國堪薩斯州立大學著名語義網技術專家Pascal Hitzler教授團隊的GeoLink Data Set: A Complex Alignment Benchmark from Real-world Ontology以及意大利Cefriel公司知識技術團隊專家的文章:Refining Linked Data with Games with a Purpose

論文1

Constructing and Cleaning Identity Graphs in the LOD Cloud(在關聯開放數據雲上構建並清理等價關係圖譜)

引用本文:J. Raad, W. Beek, F. van Harmelen, J. Wielemaker, N. Pernelle & F.Saïs. Constructing and cleaning identity graphs in the LOD cloud. Data Intelligence 2(2020), 323–352. https://doi.org/10.1162/dint_a_00057

摘要:因爲缺少個體命名的權威機構,所以在語義網上普遍存在着不同數據集用不同名稱指代同一個體的現象。當使用多個名稱表示同一個體時,我們需要使用 owl:sameAs 語句來關聯數據,並促進重用。2009年開始就有研究指出使用 owl:sameAs 屬性時有時會產生錯誤。我們之前的工作展示過一張包含超過5億條明確含有 owl:sameAs語句和350億條暗含owl:sameAs語句的等價關係圖譜identity graph)。我們提出了一個可擴展的方法,可自動計算每一條等價語句的錯誤程度。在本文中,我們生成了整張等價關係圖譜的子圖,這些子圖都包含一定程度的錯誤數據。本文結論是儘管語義網中包含了許多錯誤的owl:sameAs語句,但語義網上的數據仍是可用的,同時我們可把因錯誤使用owl:sameAs語句帶來的負面影響降到最低。

   閱讀全文,請掃描二維碼

論文 2

The Semantic Data Dictionary – An Approach for Describing and Annotating Data(語義數據字典——一種描述和註釋數據的方法)

引用本文:S.M. Rashid, J.P. McCusker, P. Pinheiro, M.P. Bax, H. Santos, J.A.Stingone, A.K. Das & D.L. McGuinness. The semantic data dictionary – an approach for describing and annotating data. Data Intelligence 2(2020), 443–486. https://doi.org/10.1162/dint_a_00058

摘要:數據集提供者在以數據字典的形式發佈數據時,通常會爲字典表裏每列數據提供文本描述。雖然這些本文描述有助於用戶正確理解數據集中每列數據的含義,但並不適合機讀,也沒有遵循統一的標準規範。已有研究指出語義數據字典可彌補現有數據字典的缺陷。語義數據字典,規定了數據的語義表示規範,可使各種不同數據集的數據表達規範化。本研究的語義數據字典基於生物醫學數據構建,但實際上這種方法可以、並已被用於不同的學科領域。利用語義數據字典可促進數據的被發現、互操作、可重用,可溯源和可再現。本文展示了可公開獲取的美國國家健康與營養檢驗調查數據集的語義標註的實例,討論了數據建模的挑戰,描述了研究者利用語義數據字典方法進行的工作,包括美國國立衛生研究院資助的大型健康數據網站和倫斯勒理工學院和IBM合作的“分析、學習和語義”健康賦能項目。在評測部分,研究者們設計了四個指標:數據、語義、FAIR原則和普適性,分別對比了語義數據字典、傳統數據字典、映射語言和數據集成工具在這四個指標上的得分。研究者們也對該方法的侷限性進行了討論並對未來研究方向進行了展望。

   閱讀全文,請掃描二維碼

論文 3

The Computer Science Ontology: A Comprehensive Automatically-Generated Taxonomy of Research Areas(計算機科學本體:自動生成對研究領域的全面分類)

引用本文:A. Salatino, T. Thanapalasingam, A. Mannocci, A. Birukou, F. Osborne & E. Motta. The computer science ontology: A comprehensive automatically-generated taxonomy of research areas. Data Intelligence 2(2020). https://doi.org/10.1162/dint_a_00055

摘要:研究領域本體是用來描繪某個研究領域特徵,探索和分析該領域的重要工具。有一些研究領域已經編制出能夠全面描繪本領域的大型主題詞表,例如生物醫學領域的MeSH醫學主題詞表,物理學領域的PhySHC主題詞表。相比之下,計算機科學領域的主題詞表粒度粗,而且發展緩慢。例如,ACM分類系統只包括2,000個研究主題,而且最近的版本還是2012年發佈的。在本文中,我們介紹了能自動對研究領域進行分類的大型計算機科學本體( Computer Science OntologyCSO),它包括1,400個主題和162,000條語義關係。該本體是通過在一個包含1,600萬篇科技文章的大型數據集上運用 Klink-2算法而建立的。

 CSO的優勢體現在:1)本體中的大量主題沒有在其他分類體系中出現過;2)通過在最近出版的文章數據集上運行Klink-2算法可自動升級CSO。在CSO基礎上開發的幾款工具已被Springer Nature編輯團隊採用,而且CSO已經被用來作爲解決方案,例如對科研出版物進行分類,發現新的研究社區,預測研究趨勢等。爲推廣CSO的應用,我們也發佈了可用來自動分類研究論文的CSO分類器,可幫助用戶下載和研究CSO、提供對CSO的細粒度反饋的CSO門戶網站。用戶可以使用此網站進行導航,對本體的各個部分進行可視化,對主題和語義關係給出評分,提出需要補充哪些主題和語義關係的建議。

    此外,CSO主體數據已在Data Intelligence期刊數據平臺上與論文關聯發佈,歡迎大家下載使用。

論文全文地址爲:https://www.mitpressjournals.org/doi/pdf/10.1162/dint_a_00055

數據下載地址爲:http://www.en.scidb.cn/journalDetail?dataSetId=662664481360314368&code=5e05cb5d64a42fa9add9b7ae&tID=journalOne&dataSetType=journal#(需先註冊後下載)

閱讀全文,請掃描二維碼

論文 4

GeoLink Data Set: A Complex Alignment Benchmark from Real-world Ontology GeoLink數據集:基於真實數據的複雜本體匹配研究基準數據集)

引用本文:L. Zhou, M. Cheatham, A. Krisnadhi& P.Hitzler. GeoLink data set: A complex alignment benchmark from real-worldontology. Data Intelligence 2(2020). https://doi.org/10.1162/dint_a_00054

摘要:本體對齊的研究已經有十多年的歷史,研究人員已經提出了很多方法,並開發了系統來發現兩個本體之間一對一的匹配關係。但是,很少有本體對齊系統的研究關注本體間複雜的匹配關係。這其中的原因可能是目前並沒有廣泛接受的包含複雜關係的本體對齊基準數據集。本文基於GeoLink項目構建了一個真實世界數據集,可作爲複雜本體匹配的基準數據集。本數據集包括兩個本體,GeoLink基本本體(GeoLink Base Ontology, GBO) 和GeoLink模塊本體(GeoLink Modular Ontology, GMO), 以及一個在諮詢各學院領域專家後手工構建的校驗參考數據集。

 本數據集實體對齊包括一對一、一對多、多對多三種類型,使用EDOAL語言(即Expressive and Declarative Ontology Alignment Language,本體匹配表達及聲明語言)和規則語法來描述實體對應屬性關係。基準數據集的最初版本已經進行了擴充,現在的版本包括由七位地球科學家提供的真實世界實例數據,而且兩個本體的數據集都已經發布。此基準數據集可用在對齊系統中,或已經有訓練數據的系統。此外,此數據集已經被用於本體對齊競賽(Ontology Alignment Evaluation Initiative, OAEI)中的複雜本體匹配的比賽中,幫助研究者們測試他們的自動對齊系統和算法。本文也分析了複雜本體對齊工作面臨的挑戰,並提供了未來研究工作的路線圖。

 該論文描述的數據集已在Data Intelligence期刊數據平臺在線發佈,敬請大家下載。

論文全文地址爲:https://www.mitpressjournals.org/doi/pdf/10.1162/dint_a_00054

數據下載地址爲:http://www.en.scidb.cn/journalDetail?dataSetId=662677835797757952&code=5e05cb5d64a42fa9add9b7ae&tID=journalOne&dataSetType=journal(需先註冊後下載)

閱讀全文,請掃描二維碼

論文 5

Refining Linked Data with Games with a Purpose用有目的的遊戲優化關聯數據

引用本文:I. Celino, G. Re Calegari & A. Fiano. Refining linked data with games with a purpose. Data Intelligence 2(2020). https://doi.org/10.1162/dint_a_00056

摘要:隨着關聯數據和知識圖譜的興起,我們迫切需要更多的數據集以及更準確的數據來補充缺失的知識,發現和改正已有數據的錯誤。研究人員已經提出了一些解決方案,這些方案大多依賴機器學習和自然語言處理技術,通常也需要一種“黃金標準”,即“參考標準數據”來訓練自動分類模型。“黃金標準”是人工構建的,或通過邀請領域專家參與構建,或採用衆包和人力計算的解決方案構建。本文提出了一種開源軟件框架,通過激勵措施啓發用戶參加網上游戲,我們稱之爲“有目的的遊戲”(Games with a Purpose, GWAP),來優化關聯數據,也就是說通過衆包的方式得到部分“參考標準數據”。本框架支持的關聯數據的功能包括創建數據鏈接,給鏈接評分和校驗鏈接。通過介紹本框架的支持功能和定義每個衆包任務是如何幫助實現這些功能,我們展示了本文提出的框架方法所具有的現實意義。

   文中介紹了利用“有目的的遊戲”(GWAP)玩家貢獻的數據推斷“參考標準數據”的方法。通過對比GWAP和傳統衆包方法來說明本文方法的必要性,本文解釋並描述了方法過程,通過與目前最先進的方法對比顯示本文方法的先進性。本文提出的方法有多種用途:文中描述了基於本方法的不同應用來展示它的可重用性和可擴展的潛力。文中也提供了本文方法的參考資料,包括整個教程,讓新手在幾個小時內可以學會使用本框架方法拓展新的應用案列。

         論文全文地址爲:https://www.mitpressjournals.org/doi/pdf/10.1162/dint_a_00056

   閱讀全文,請掃描二維碼

                                                                                                                 

 

OpenKG

開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。

點擊閱讀原文,進入 OpenKG 博客。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章