时间:2024-05-04
林 辉 陶 治 郝耀辉 郭渊博
(战略支援部队信息工程大学密码工程学院 郑州 450004)
密码是保障网络与信息安全的核心技术和基础支撑,无论是商业领域还是军事领域,随处可见的密码应用场景,促使密码研究领域得到飞速发展。如何有效组织、存储全球密码领域研究者、研究机构等信息,进而挖掘、分析密码研究领域的热点主题、研究力量及其合作关系等,对分析全球密码研究领域实力水平分布,了解密码研究领域研究发展趋势等,具有重要参考价值,对启发密码领域科研思路、促进密码领域研究具有积极作用。
自2012 年Google 公司提出知识图谱概念,许多研究机构、科研人员对知识图谱构建技术进行研究,并将其应用于诸多领域,取得了很多创新性的研究成果[1~4]。概况起来,知识图谱构建最常见的是以“实体-关系-实体”或者“实体-属性-属性值”三元组形式作为事实的表达方式,从而将现实世界的数据存储到信息世界,构成知识的“图谱”。其主要步骤包含实体识别、实体抽取、实体消歧、属性抽取、关系抽取、关系补全等。
目前,在知识图谱构建方法和技术的研究方面,胡代旺等利用轻量级预训框架ALBERT,提出了一种新的知识图谱实体关系抽取算法,可有效地提高实体关系抽取的精度[5];付瑞等改进的BERTBiGRU-CRF模型[6]、Wu提出的CTD-BLSTM模型[7]等,均取得了较好的效果。在知识图谱研究领域,最常见的是依据不同行业、领域背景,构建知识图谱,进行数据存储和分析。例如:丁晟春等采用知识图谱方法挖掘、组织、存储、展示电商产品信息[8];吕华揆等基于金融机构间持股关系、持股比例构建了中国金融股权知识图谱,分析了中国金融机构间的知识关联关系[9];沈科杰等使用Neo4j图数据库,基于个人公开履历信息,建立了涵盖个人任职经历、任职机构、同事等数据信息的履历知识图谱,可为企事业单位的人才选拔、人事任免任务提供决策支持[10]。在医学研究领域,胡正银等提出了一套基于知识图谱多源数据融合的学科知识发现方法框架,并基于造血干细胞癌症治疗的科技文献数据,进行了学科知识发现探索[11];Li等从患者的电子病历文本数据中,抽取知识,构建了膝骨关节炎知识图谱[12];Daniel[13]基于COVID-19 冠状病毒的病理、生理学知识,构建了相应的知识图谱。李涛等以CNKI 收录的2244 条密码文献记录为研究对象,采用Citespace V 软件绘制了我国密码学研究文献知识图谱,分析了密码学文献的时间、作者、机构及关键词等知识信息[14]。这些工作取得了许多有意义的成果。
总体看,知识图谱方法和技术在密码学领域的研究还较少见。亚密(ASIACRYPT)、欧密(EUROCRYPT)、美密(CRYPTO)三大密码学年会代表国际密码学术界的发展水平[15~17],一直受到世界各国学者的广泛关注。本文以三大密码学年会收录的论文的题目、作者等数据信息为研究样本,进行分析、挖掘,采用Neo4j 图数据[18],构建三大密码年会知识图谱,呈现密码学的国际研究现状、研究热点、演变特征及研究关键词、研究者等之间的关联关系,以期为后续相关密码领域研究者提供参考与启发,对密码领域相关机构、研究者了解行业现状有一定参考意义。
本文构建知识图谱的数据对象来源于网址https://www.iacr.org/cryptodb,采用Python 语言编写爬虫程序抓取获得,包含2011-2020 共十年间三大密码年会收录的论文1820 篇。其中,抓取的论文信息主要包括:题目、作者、作者所属机构、机构所属国家、收录年份等。基于SPO 三元组模型,使用Neo4j图数据库(社区版版本号:4.2.0),构建生成知识图谱。概况起来,可分为以下四个主要步骤,具体如图1所示。
图1 知识图谱构建步骤图
1)数据采集与处理
分为爬取数据和抽取数据两部分,首先从三大密码年会网站爬取发表的论文数据,编号记录每篇论文;然后,对论文标题进行分词操作,再依次抽取、存储论文标题关键词、论文作者、作者所属单位等数据,表示为“实体-属性-属性值”形式。
2)数据融合与表示
依据上述处理后的三大密码年会发表论文的数据,依据论文作者姓名、论文标题关键词等对数据进行汇总归类,相应的各实体间的关系也做融合处理,得到三大密码年会论文数据的SPO 三元组(实体-属性-实体)。
3)知识图谱构造与存储
Neo4j 是一款被广泛应用的图数据库管理系统,可提供基于图论的数据存储结构和知识查询推理。本文主要在Neo4j图数据库管理系统中构建密码领域知识图谱。
4)知识发现
主要通过寻找知识图谱中的度值、介数值、紧密度值大的中心性节点及绘制可视化图谱等,分析密码研究领域的高频作者、机构、关键词及作者合作关系、机构合作关系等,形成对全球密码研究领域发展、演化的前沿探测。
考察三大密码学年会收录论文作者所属的科研机构,统计各机构的发文数量,考察世界范围内密码学研究的核心学术团体和机构,分析研究机构的所属国家及机构间的合作关系,是了解世界密码学研究实力分布的重要依据。按时间片(1年)统计前10名机构发表论文数的时序图谱,如图2所示。
从图2可以看出,近10年累计发表论文数量排名前10 的机构,各自每年发表论文数量各不相同,存在起伏涨落。2019年是累计发表论文数量10年中最多的一年,2020 年发文1 数量与2013 年、2015年的发文数量相近,与2019 年发文数量相比下降许多。主要由于UCLA、Aarhus University、IBM Research、Johns Hopkins University、UT Austin 这5 个机构发文数量减少引起的。
统计排名前10 科研机构发表的论文数量,计算各机构论文数量与全部论文数量的占比,如表1所示。排名前三的研究机构有UCLA 学院(143篇)、MIT 学院(81 篇)和Aarhus University 学院(71篇),三个研究机构发表论文数量总占比为15.1%,说明这三个研究机构在密码学研究领域有较强的科研实力与领域影响力,紧随其后的是UC Berkeley、University of Bristol、IBM Research、Johns Hopkins University、Northeastern University、University of Maryland、UT Austin等科研单位。
表1 排名前10的科研机构发表论文数量与总占比
继续考察不同机构之间的合作情况,设置在同一篇论文中出现过的机构之间存在合作关系,采用Neo4j 图数据库及Python 词云工具,生成密码学研究机构之间的合作图谱及高频科研机构词频图(忽略没有合作关系的独立机构节点),如图3 所示。图中一个节点代表一个科研机构,红色、黄色、蓝色节点分别表示合作机构数量大于30、大于10 小于等于30、小于等于10的科研机构。
图3 三大密码年会中机构合作论文关系图谱及高频机构词频图
对比图3 中三大密码年会中各机构合作关系图谱,可以看出三大密码年会各自的关系图谱均不相同,既存在有合作关系数量较大的机构,也存在两两孤立合作的机构(单个机构也在图中显示),说明全球密码学研究领域大部分机构之间存在合作关系,但有部分机构自立门户,独立为战,与外界无交流合作。进一步检索三大密码年会中合作关系数量排名前5的机构,如表2所示。
表2 合作关系数量排名前5的机构
从表2 数据可发现,CNRS、UCLA、IBM Research 这三个科研机构在欧密会、美密会、亚密会的合作关系数量排名中均在前5 名里,MIT、New York University、NTT Secure Platform Laboratories 三个机构分别对应在欧密会、美密会、亚密会中出现在前5 名里。和表1 中的数据关联分析,可以发现UCLA 既是发表论文数量最多的机构,又是存在多方合作关系的机构。而CNRS、New York University、NTT Secure Platform 这三个机构未出现在发文数量前10 名的机构名单中,说明其主要依赖于合作研究,独立研究能力相对较弱。
此外,在知识图谱分析中节点的介数中心性和紧密中心性是测量节点在网络中重要性的指标,根据Neo4j 中的GDS 算法库,计算构建的知识图谱中各节点的介数值和紧密度值,分别选取排名前5 的机构,如表3与表4所示。
表3 机构合作关系图谱中排名前5的节点介数值
表4 机构合作关系图谱中排名前5的节点紧密度
依据表3 中的机构介数值数据,只有CNRS 在三大密码年会都排在前5 名中,UCLA 在欧密会和美密会中排在前5 位中,未进入亚密会的前5 位。TU Darmstadt、UC BerkeleyNew 的介数值在欧密会中排在第1、第2位,但美密会和亚密会中未进入在前5 名。同时,New York University 的介数值在美密会中排在第2 位,但欧密会和亚密会中未进入在前5 名。说明在机构合作中起连通作用(介数值)大的机构有地域特性,各机构在各自所处区域的密码年会中对关联合作的连通性作用更强。
依据表4 中的机构紧密度数据,发现CNRS、IBM Research、NTT Secure Platform Laboratories 三个机构在三大密码年会中均处于前5 名中,说明三大密码年会中处于中心位置的机构相差不大,即密码学全球范围内处于核心地位的机构相对集中。
考察三大密码年会收录论文中不同作者之间的合作情况,设置在同一篇论文中出现过的作者存在合作关系,生成密码学领域研究者的机构合作图谱,如图4所示。从图4可以看出,密码领域的研究者大部分之间存在联系,少部分研究者只在小范围(2人~10人之间)存在联系。
图4 三大密码年会中研究者合作论文关系图谱
计算研究者合作关系图谱中各节点的度值、介数值和紧密度值,分别选取排名前10 的研究者,如表5所示。
表5 作者合作关系图谱中前10名度值、介数值和紧密度值节点
深入与研究者发表论文数量对比分析,发现合作者图谱中度值前10 名的研究者和发表论文高产作者前10 名名单一致、数值相等,说明密码研究领域高产作者发表的论文均不是独立完成,全是合作完成。
依据表5 中的具体数值分析,度值排序中,前10 名研究者的最大度值为70,而紧密度排序中,最大紧密度值为0.31,说明在密码领域研究者多是直接与业界大牛、知名学者开展合作研究,但大牛、知名学者之外的各研究者之间的合作关系较少。继续对比表5 中度值、介数值前10 名研究者信息,发现Yu Yu、Léo Ducas、Chun Guo、Yang Yu、Joanne Woodage 这5 位研究者在度值排序的前10 名中并未出现,但介数值又非常大,说明这5 位研究者在密码领域各研究者合作关系中起着非常重要的桥梁纽带作用。
依据爬取的三大密码年会10 年论文数据,利用nltk 自然语言处理库,对论文标题进行分词处理,去掉介词、连接词及一些特殊字符,共得到3170 个标题词汇。统计标题词汇出现的频次,其中排前30的结果,如图5所示。
图5 三大密码年会论文中标题高频词
从图5 中可见看出,Encryption 是出现频次第1位的高频标题词汇,Security、Secure 是出现频次第2 位、第3 位的高频标题词汇,Computation、Applications这两个词出现频次分别处于第4位、第5位,说明近10 年密码相关研究领域重点在加密和安全领域,并侧重计算实现与应用方面的研究。
设置在同一篇论文中出现过的标题词汇之间存在联系,生成密码学领域关键词图谱如图6 所示。进一步计算关键词合作关系图谱中各节点的度值、介数值和紧密度值,分别选取排名前10 的研究者,如表6所示。
表6 关键词关联关系图谱中前10名度值、介数值和紧密度值节点
图6 三大密码年会论文高频关键词关联关系图谱
对比表6中数据,排名前10的度值与介数值节点中,有Security、Encryption、Secure、Applications、Attacks、New、Efficient、Computation、Functions 9 个词重合,说明代表研究热点的关键词在图谱连通性方面起的作用也很大,密码各领域研究是通过热点关键词逐步扩充,关联起来的。关键词紧密度分析,发现关键词紧密度值明显高于机构、作者合作关系中各节点的紧密度值,说明密码研究领域除围绕热点关键词开展研究外,相对不是热点的关键词之间进行的关联研究也很多。其中,紧密度值排名第10 位的“Quantum”在度值、介数值的前10 名名单中并未出现,说明“量子”在密码领域的研究中处于新兴地位,还不是密码研究领域的核心关键点,围绕“量子”开展的合作研究比较集中。
综上所述,在近十年的时间内,时间分布图谱表明,世界范围密码学研究领域论文发表量呈现逐步递增趋势,目前处于高产出阶段。研究机构和作者分布图谱表明,虽然参与密码学研究的机构单位众多,呈现出多点开花局面,但也涌现出如CNRS、UCLA、IBM Research、Yevgeniy Dodis、Jonathan Katz等处于核心地位的机构与作者。作者、机构合作关系图谱紧密度分析表明,密码领域的科研机构和研究者倾向于直接和业内处于核心地位的机构、大牛作者合作,核心外围的机构、研究者之间合作较少。
综上所述,通过采集2011-2020 年欧密、美密、亚密三大密码年会的数据,构建可视化知识图谱及统计计量分析方法,揭示了密码研究领域的现状及特征,研究结果对密码领域相关机构、研究者了解行业现状有一定参考意义。但论文主要依据三大密码年会的数据开展研究分析,数据量有限,后续将扩充密码研究领域的其它数据,已达到全方面解析密码领域研究特征的目的。
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!