当前位置:首页 期刊杂志

COVID-19防控知识图谱的构建及可视化*

时间:2024-05-04

胡丹阳 高 峰 顾进广

(武汉科技大学计算机科学与技术学院 武汉 430065)

1 引言

自新冠疫情在全球范围爆发以来,世界各国人民的生活都受到了极大的影响。在全球科学家的共同努力下,新冠疫情相关信息逐步积累。同时,随着互联网行业的快速发展,信息量出现了极大的增长,有效信息与冗余信息混杂。但是未经处理整合的新冠防控信息,难以实现直观信息展示,在后续的深层次应用上存在困难。

近年来,由于知识图谱在交互的知识推理与发现方面的出色表现,知识图谱方向的研究受到了越来越广泛的关注。通过对防控措施相关信息收集,进行分类、归纳,取得事件之间的联系,可以构成一个丰富的新冠防控知识图谱。新冠防控知识图谱的构建能够充分挖掘信息价值,为人们提供直观的防控措施参考依据。

本文对新冠防控知识图谱的构建方法进行了全面的分析整理,并采用力导向布局的节点连接图实现新冠防控知识图谱的可视化。对知识图谱应用场景进行了介绍,提出来后续深入研究的方向,以期对推动和完善新冠知识图谱的建设工作和应用提供帮助。

2 研究现状

2.1 知识图谱

知识图谱概念诞生已久,Lee在2006年呼吁完善数据链接相关技术标准,如统一资源标识符(Uniform Resource Identifier,URI)等[1],随后引起语义网研究热潮,知识图谱技术随之诞生。目前被广泛认同的知识图谱是在2012年由谷歌提出,最初目的是提高引擎搜索能力,优化用户搜索质量。知识图谱技术在经过语义网络、描述逻辑、本体论阶段的发展后,目前主要的表达方式为Swick等提出的资源描述框架(resource description framework,RDF)[2]以及由W3C负责维护的网络本体语言(Web Ontology Language,OWL)[3]。

目前知名度较高的大规模开放链接知识库包括Freebase[4]、Wikidata、DBpedia[5]以及YAGO[6]。经过广泛的研究和探索,现在知识图谱在语义搜索、问答[7]与决策支持等方面已成为受到大众认可的基础技术之一。

在生命科学方向上,知识图谱应用广泛,Ernst等构建了涉及疾病、症状、原因等多方面的知识图谱,相比之前生命医学本体构建主要集中在基因、蛋白质等方向,在新方向做出了探索[8],Ali等针对生物方向实现知识图谱嵌入的系统有限的情况,开发了BioKEEN,允许用户以交互命令的方式使用[9]。Shi L等针对异构医学知识数量巨大的现状,提出一种新颖的模型更好的实现医疗知识的语义集成[10]。目前,关联开放数据云(The Linked Open Data Cloud)中生命科学方面的数据集数量最多。

2.2 可视化技术

知识图谱可视化是指将知识图谱中的知识以图形化的方法展示出来。目前主流的知识图谱可视化技术可以分为四类,即空间填充、节点链接图、热图和邻接矩阵。节点链接图是用互联的节点表示本体,最常用的布局为力导向布局,力引导布局最早由Eades在1984年提出。本文选择使用的是力导向布局的节点链接图。

此外,Heim等提出了一种展示两个节点之间关系的图形化方法[11],Kerdjoudj等提出来一种可视化RDF知识图谱的系统[12]。

2.3 新冠知识图谱

自新冠疫情爆发以来,中文开放知识图谱OpenKG组织构建了一系列新冠相关知识图谱,包括浙江大学陈卓等构建的新冠科研知识图谱,小米人工智能实验室及河海大学构建的新冠事件知识图谱,清华大学许斌等构建的新冠健康知识图谱,哈尔滨工业大学张裕舟等构建的新冠概念知识图谱,IBM中国研究院李静等构建的新冠流行病知识图谱,蔡嘉辉等构建的新冠临床知识图谱,王智凤等构建的新冠英雄知识图谱,武汉科技大学刘宇等构建的新冠物资知识图谱,王昊奋、漆桂林构建的新冠百科知识图谱。Domingo-Fernández等提出了新冠生理病理学方向的知识图谱[13]。

3 新冠防控知识图谱构建及可视化

3.1 防控措施的定义

防控措施是指为消除潜在不合格或其他潜在不期望情况的原因所采取的措施以及根据评估结果以采取用来保证目标得以实现的措施。针对新冠疫情的防控措施主要指,通过某种措施达到不感染新冠病毒并且对已发生的新冠疫情产生有效控制的措施。防控措施是新冠防控知识图谱的关键部分,通过防控措施需要了解到什么人在什么地方采取什么样的措施和物资能够防止感染新冠病毒。

3.2 数据来源及构建思路

新冠防控知识图谱的数据来源主要是协和新型冠状病毒肺炎防护手册[14](以下称作《手册1》),《张文宏教授支招防控新型冠状病毒》[15](数字版)(以下称作《手册2》),以及中央赴湖北省指导组防控组编制的不同人群、不同场所和不同交通工具健康防护指导手册[16](以下称作《手册3》)。需要注意的是,各国针对新冠疫情提出的建议防护措施不尽相同。为避免防控建议与当地防护要求产生冲突,基于以上信息来源总结的防控建议适用范围为中国。

根据《手册1》,采用“自顶向下”的方法构建知识图谱。确定出交通工具、场所、人群和措施四个基本类,并且对每一个类进行细分,同时确定出适用人群、适用场所、适用交通工具等对象属性;为使得新冠防控知识图谱内容更加完整,实用性更强,增加问答类和疫情类。以上信息来源中对应的不同防护措施作为实例(Individual)添加至新冠防控知识图谱。

3.3 防控措施模型

根据上述定义,在形式上用M表示防控措施,定义一个六元组M={P,A,E,D,S,T},包含的基本元素分别代表适用人群、适用场所、措施主题、措施描述、防控物资以及交通工具[15]。

P(适用人群):指防控措施针对的人群,一般为防控措施主语,例如“需要陪护的老人,陪护人员应注意自身健康。陪护人员要注意减少外出,如果必须外出要做好自身防护”中的陪护人员。

A(适用场所):指防控措施适用的动作发生的场所,例如养老院、学校、工作场所等。为区别people与place,用A(area)表示适用场所。

E(措施主题):是对措施的概括性描述,根据汉语习惯提取措施描述中的关键词,保留句子主干,尽量简洁的进行表述。例如“保持环境卫生”。

D(措施描述):具体描述某种措施,即在措施主题的基础上进行扩充,添加定语、状语、补语,使得措施描述表达更加清晰准确。例如“保持环境整洁卫生,每天定时对公用设备或物体表面(如收银台、柜台、休息区等)进行擦拭消毒,并做好记录。”

S(防护物资):指的是防护措施中涉及到的物品,例如在“医疗机构要重视消毒隔离工作,各部门要密切协作,确保消毒隔离和防护措施落实到位,定期进行消毒效果监测”这个措施描述中,建议使用的防护物资为消毒用品。

T(交通工具):即防控措施中涉及到的交通工具,例如在“老人出现发热、咳嗽等可疑症状时,应自我隔离,避免与其他人员近距离接触。由医护人员对其健康状况进行评估,视病情状况送至医疗机构就诊,送医途中应佩戴口罩,尽量避免乘坐公共交通工具”中提到的公共交通工具。

如图1所示,为防控措施六元组例子。

图1 防控措施六元组例子

3.4 新冠防控schema设计

防控措施本体定义了防控措施的六类实体:人群、场所、交通工具、常见问答、措施、疫情。对象属性中定义了适用人群、适用场所等属性。其中,交通工具和人群被设为枚举类。通过设置属性的Domains和Ranges将属性和类关联起来。防控措施本体模型如图2所示。

图2 防控措施本体模型

根据《手册1》、《手册2》、《手册3》中的信息对每个类中的概念进行完善。措施类包含新冠防控措施的主要信息,按照个人、场所、交通工具预防措施以及心理调适等方面进行描述,其中心理调适包含子类不同心理问题调适以及不同人群的心理调适。措施类结构如图3所示。

图3 措施类结构

交通工具类包含出租汽车、公共交通汽电车、私家车等子类,通过对象属性使用的交通工具与措施类关联,交通工具类结构如图4所示。

图4 交通工具类结构

人群类包含企业工人、伤残人士、儿童等子类,通过对象属性适用人群与措施类关联,人群类结构如图5所示。

图5 人群类结构

场所类包含公共场所、家庭、特殊场所、社区四个子类,每个子类下又包含对应的概念,通过对象属性适用场所与措施类关联,场所类结构如图6所示。

图6 场所类结构

3.5 新冠防控知识图谱实例

根据《手册1》、《手册2》、《手册3》中的信息,形成相应的新冠防控知识图谱schema,包含防护概念的分类体系、注意事项,相关避免去的场所、措施适用的人群等属性和对于防控新冠病毒的有效措施。其中物资包含口罩、消毒用品等涉及一些特定商品的图谱。

通过Protégé添加实例,以《手册3》中企业工人预防措施第八条为例,措施的具体描述为“企业工人应加强手卫生,可用有效的含醇速干手消毒剂,特殊条件下,也可使用含氯或过氧化氢消毒剂进行消毒”,进行分析,其中适用人群为企业工人,建议使用的防护物资为含氟消毒液、含酒精消毒液,措施主题为“使用消毒剂加强手卫生”。

根据目前互联网公开的针对人员、场所、交通工具的新冠防控指南和手册添加相应的实例后的新冠防控知识图谱样例图如图7所示。

图7 新冠防控知识图谱样例图

经过SPARQL查询对COVID-19防控知识图谱进行规模统计,统计结果如表1所示。

表1 COVID-19防控知识图谱规模

3.6 新冠防控知识图谱可视化

可视化是将新冠知识图谱中的知识以图谱形式进行展示。本文实现新冠防控知识图谱可视化主要分为以下几步进行,首先进行数据预处理,其次生成可视化页面,最后优化布局,生成力导向的节点连接图。

在对数据进行预处理时,需要将OWL文件按照一定格式处理成为Json文件。在进行处理时,每个节点赋予唯一id标识,除自身信息外,保存其父、子节点信息,由此标记关系。处理后的Json文件使用D3.js(Data-Driven Documents,数据驱动的文件)进行展示。

为避免可视化结果中存在大量交叉线,提升图的美观度与可阅度,采用力导向布局,硬于更好地展现网络的整体结构与自同构特征。力导向布局基本思想是把网络看成是一个物理系统,在其顶点有一个钢环,在其侧面有一个弹簧。当系统得到一个初始状态后,弹簧的作用力(重力和斥力)使钢圈运动起来,当系统的总能量降低到最小,这种运动就会停止。本文采用力导向的节点连接图生成新冠防控知识图谱的可视化。结果如图8所示。

图8 可视化结果

4 新冠防控知识图谱的应用

4.1 防护措施导览

利用新冠防控知识图谱,可以实现原文导览。通过关键字、词匹配方式提供人群、场所、物资和对象等实体的相关措施(及子措施)查询和展示;或基于自然语言的措施主题查询与之相关的防控措施具体内容。复工企业、上班工人等用此方式快速定位并阅读与自己的场所、人群等相关的防控措施及子措施。

用户输入车,可以查询涉及建议使用的交通工具,交通工具名称中包含“车”的防控措施,例如私家车乘坐时需要注意通风换气,公共汽车在车辆每次出行载客前应对车厢进行清洁消毒,需要用到的防护物资为消毒用品。

SPARQL查询语句如图9所示。

图9 SPARQL查询语句

最终获取的部分信息如表2所示。

表2 部分导览结果

4.2 新冠防控知识推理

新冠防控涉及到的场景多样,相同场景下针对不同人群防护措施也不尽相同,仅根据现有防护手册中的信息,不可避免地会出现无法完全匹配的情况。知识推理可以根据现有信息,进行综合分析、决策,归纳出新的事实。即新冠知识图谱可以满足用户对各种情景下的信息查询,给出适合的防护方案。

定义以下规则:

security_measures(x,true):

-place(p,x)

rdfs:t ype(t,p)

measures(m,t)

security_check(x,m)

x是输入内容,p为x中的地点,t为地点类型,m是t类型地点应当采取的防控措施,当x包含m中每一项措施时,输出结果为true。

当接收信息为“公交公司已按照客流情况对XX路公交车组织合理运力,上班工作人员无发热情况,车辆驾驶过程中保持少量车窗为开启状态,接收所有乘客,在车辆出发前和到达终点站后均进行消毒”时做出推理,XX路公交车是城市公共汽电车,属于交通工具,在知识图谱中对应查找城市公共汽电车预防措施,并做出防护情况判断。判断结果为未正确防护,存在的防护错误点为车辆驾驶过程中仅少量车窗为开启状态,接收所有乘客。存在的防护遗漏点为未随车配备消毒物品,车辆未设置临时隔离区。

4.3 新冠防控知识图谱应用意义

通过对相关信息的收集与整理构建的新冠防控知识图谱在很多场景下都具有实际应用价值。未经整理的信息多而无序,在经过合理设计后构建的新冠防控知识图谱能够对信息进行清晰有效的展示,提高用户信息获取效率,如新冠防控知识图谱在导览方向上的应用,在没有新冠防控知识图谱的情况下,用户可能需要在网页上搜索完整的新冠防控措施文档,然后再逐条根据自身情况进行匹配。对于没有明确给出防护措施的场景,知识图谱可以根据规则进行推理,根据已有信息提供给用户明确的适用防护措施。

新冠防控知识图谱的构建为后期的应用打下了基础,除了可以用于防护措施导览、知识推理,后期还可以拓展提供基于自然语言的搜索,以及通过图谱中包含的FAQ和KBQA来提供问答功能。

5 结语

本文通过信息收集整合,对防护措施进行了定义,并据此提出防控措施六元组概念,即人群、场所、防护物资、交通工具、措施主题、措施描述,在对层次结构进行梳理优化后,构建了新冠防控知识图谱,具有开放性,在设计上为后续的扩充与修改留出了空间。对OWL文件进行数据处理,按照一定格式生成Json文件,并采用力导向的节点连接图,实现新冠防控图谱的可视化。对新冠防控知识图谱的应用场景做了简单介绍。

本文完成了新冠防控方面知识图谱的初步探索,知识图谱规模方面,作为未来的工作,可以在现有基础上进行知识图谱扩充,例如实现通过机器学习进行关系抽取。在可视化方向上,后续可以在交互性与可视化效果上进行完善。在应用方面,可以完善规则,实现推理等应用。

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!