应用实践 | 南方科技大学研发基于新型冠状病毒知识图谱模式挖掘系统

本文转载自公众号:南方科技大学计算机科学与工程系。


随着新型冠状病毒疫情的不断发展,有关疫情的各类信息也在不断更新,如何利用知识图谱从大量新型冠状病毒肺炎信息中高效挖掘相关频繁模式(如病毒的宿主、传播途径)成为辅助专业人士迅速掌握病毒来源、有效提高临床治疗效果等问题的关键因素。

南方科技大学计算机系唐博教授领导的数据库研究团队与澳门大学智慧城市物联网国家重点实验室数据科学研究中心主任余亮豪教授团队紧急联合启动基于新型冠状病毒知识图谱模式挖掘系统(下称“新冠图谱挖掘系统”)的研发,目前新冠图谱挖掘原型系统正式推出,该系统实现关于新型冠状病毒的不同知识图谱的前K频繁模式的高效挖掘,为专业人士分析病毒相关问题提供决策依据。

新冠图谱挖掘系统架构如图1所示,数据层首先预处理大量新冠图谱数据,如清洗、整合等,随后建立图谱索引结构以支撑计算层进行高效频繁模式挖掘,通过用户层输入模式挖掘需求到图谱挖掘系统,通过计算层挖掘频繁模式并返回用户进行可视分析。计算层的核心技术来源项目团队的科研课题与技术积累[1]。根据初步研究结果显示,计算效率较目前学术界最优算法提高10倍到20倍,研究成果能有效提升系统面对大量复杂知识图谱查找及实时数据处理的需求。

 

图1:新冠图谱挖掘系统架构

该系统可用于分析各类新冠图谱,包括不仅限于新冠科研图谱、新冠健康图谱、新冠物资图谱、新冠英雄图谱等。如下图2所示,基于新冠科研图谱数据[2]该系统挖掘毒株的变异模式可得到(1)挖掘结果包含了新冠病毒变异分支,产生城市,病毒载体等相关信息,系统通过出现次数不同进行排序。(2)图中排序第二的模式揭示了2019-nCOV毒株的发现城市与变异分支的具体情况:2019-nCOV毒株来源城市有武汉(21株)、深圳(8株),巴黎(4株),杭州(4株),悉尼(3株)等;(3)不同城市的毒株的变异分支不同,如武汉的部分毒株变异于分支036,巴黎的部分毒株变异于分支043。这些分析结果能帮助领域专家快速了解不同城市的2019-nCOV病毒毒株特征,从而快速检测毒株种类、辅助病例治疗等。

 

图2:新型冠状病毒知识图谱挖掘系统

新冠图谱挖掘系统中图谱数据来自中文开放知识图谱新冠专题[3],新冠知识图谱基于统一的命名规范和语义格式,采用 CC-by SA 相似署名开放许可协议。新冠图谱挖掘系统的主要贡献者是南方科技大学2018级博士曾剑、2016级本科生唐千栋和杨川。此外本项目开发团队热烈欢迎不同领域专家一起加入该系统的研发,以增强系统分析功能与使用范围。

 

[1] 本项目的核心技术研发来自国家自然科学基金青年项目和深圳市基础研究自由探索项目的支持。

[2]http://openkg.cn/dataset/covid-19-research

[3] http://openkg.cn/group/coronavirus

点击阅读原文,进入新冠图谱专题


OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章