應用實踐 | 南方科技大學研發基於新型冠狀病毒知識圖譜模式挖掘系統

本文轉載自公衆號:南方科技大學計算機科學與工程系。


隨着新型冠狀病毒疫情的不斷髮展,有關疫情的各類信息也在不斷更新,如何利用知識圖譜從大量新型冠狀病毒肺炎信息中高效挖掘相關頻繁模式(如病毒的宿主、傳播途徑)成爲輔助專業人士迅速掌握病毒來源、有效提高臨牀治療效果等問題的關鍵因素。

南方科技大學計算機系唐博教授領導的數據庫研究團隊與澳門大學智慧城市物聯網國家重點實驗室數據科學研究中心主任餘亮豪教授團隊緊急聯合啓動基於新型冠狀病毒知識圖譜模式挖掘系統(下稱“新冠圖譜挖掘系統”)的研發,目前新冠圖譜挖掘原型系統正式推出,該系統實現關於新型冠狀病毒的不同知識圖譜的前K頻繁模式的高效挖掘,爲專業人士分析病毒相關問題提供決策依據。

新冠圖譜挖掘系統架構如圖1所示,數據層首先預處理大量新冠圖譜數據,如清洗、整合等,隨後建立圖譜索引結構以支撐計算層進行高效頻繁模式挖掘,通過用戶層輸入模式挖掘需求到圖譜挖掘系統,通過計算層挖掘頻繁模式並返回用戶進行可視分析。計算層的核心技術來源項目團隊的科研課題與技術積累[1]。根據初步研究結果顯示,計算效率較目前學術界最優算法提高10倍到20倍,研究成果能有效提升系統面對大量複雜知識圖譜查找及實時數據處理的需求。

 

圖1:新冠圖譜挖掘系統架構

該系統可用於分析各類新冠圖譜,包括不僅限於新冠科研圖譜、新冠健康圖譜、新冠物資圖譜、新冠英雄圖譜等。如下圖2所示,基於新冠科研圖譜數據[2]該系統挖掘毒株的變異模式可得到(1)挖掘結果包含了新冠病毒變異分支,產生城市,病毒載體等相關信息,系統通過出現次數不同進行排序。(2)圖中排序第二的模式揭示了2019-nCOV毒株的發現城市與變異分支的具體情況:2019-nCOV毒株來源城市有武漢(21株)、深圳(8株),巴黎(4株),杭州(4株),悉尼(3株)等;(3)不同城市的毒株的變異分支不同,如武漢的部分毒株變異於分支036,巴黎的部分毒株變異於分支043。這些分析結果能幫助領域專家快速瞭解不同城市的2019-nCOV病毒毒株特徵,從而快速檢測毒株種類、輔助病例治療等。

 

圖2:新型冠狀病毒知識圖譜挖掘系統

新冠圖譜挖掘系統中圖譜數據來自中文開放知識圖譜新冠專題[3],新冠知識圖譜基於統一的命名規範和語義格式,採用 CC-by SA 相似署名開放許可協議。新冠圖譜挖掘系統的主要貢獻者是南方科技大學2018級博士曾劍、2016級本科生唐千棟和楊川。此外本項目開發團隊熱烈歡迎不同領域專家一起加入該系統的研發,以增強系統分析功能與使用範圍。

 

[1] 本項目的核心技術研發來自國家自然科學基金青年項目和深圳市基礎研究自由探索項目的支持。

[2]http://openkg.cn/dataset/covid-19-research

[3] http://openkg.cn/group/coronavirus

點擊閱讀原文,進入新冠圖譜專題


OpenKG

開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章