时间:2024-04-24
崔欣卉
摘要:数字化、网络化、智能化等新起的信息技术驱动数字中国建设向纵深迈进,以数字媒介和人工智能为基础的新兴文化形态和知识生产体系正日见雏形,并展现出广阔的发展前景。文章提出一种基于主题图的多元资源整合模型,从资源收集到资源关联可视化,构建了基于主题图的多元资源组织模型,并以赛珍珠研究资源为具体案例展示,为其他领域整合多元模型提供参考。
关键词:主题图;多元资源
一、引言
在全面推进我国数据强国和数字中国的建设过程中,互联网、物联网等技术普遍适用于社会各领域,引发了信息资源收集、分析、组织、运用模式的变革,驱动多元主体从多方视角、多个维度对信息资源展开多层次分析与应用。在此背景下,众多学者越来越关注各研究领域下分布在不同系统中且种类多样的资源合理转化与关联问题,并希望在此基础上实现资源关联可视化服务。本文以赛珍珠研究资源为例,旨在构建多元资源整合模型,探究各领域研究资源的组织管理模式,选取多来源、多种类的不同研究资源,通过主题图资源组织方式,揭示赛珍珠研究资源的语义内容主题结构,探寻多元资源整合方式。
二、相关研究
大数据环境下多元资源的多样性为各学科的研究提供了巨大空间。目前常见研究资源来源渠道有中国知网、百度学术、万方、网络资源等,来源渠道分散且单一,主要方法还是文献计量学。在多元资源整合方面,如将期刊文献和专利文本的整合、基金项目和数据的整合等,都为较成功的实践。但如何对于整合不同平台、不同维度、不同类型等的多元资源,进行主题发现与关联,从而实现更全面、深入的资源整合研究较少。
主题图作为一种知识管理和信息导航的技术,在信息资源关联聚合的应用上引起了广泛的关注。Steve在《寻求全球知识交换点》(A Perspective on the Quest for Global Knowledge Interchange)的文章中详细描述了主题图的历史,在这之后,主题图的开发者在数据模型、TAO模型与XTM技术规范等文档中对主题图的结构要素、技术标准等做了详细介绍;主题图技术在引入我国后,艾丹祥、黄晓斌、秦铁辉等学者对主题图技术的核心概念、基本结构和功能做了详细介绍,赵金海等对开源主题图引擎TM4J技术工具做了分析,李清茂对开源主题图引擎Ontopia的工作机制做了详细分析;郭黎等利用主题图技术对多源地理空间数据做了有效关联和查询;王文宁等学者基于主题图技术构建了洪灾应急信息的关联场景模型;张云中基于主题图技术提出了数字档案的标注系统资源聚合研究。由此可见,运用主题图技术对于整合不同平台、不同维度、不同类型的多元资源具有可行性。
三、多元资源整合主题图构建
(一)构建方法
构建一个成功的多元研究资源库是一项庞大的工程。在模型的设计前期,需要研究者设计模型的构建流程,对资源的种类和来源进行梳理,反复确认资源收集渠道,更新逐渐成熟的计算机技术,才有可能构建出较完善、让用户满意的知识资源共享库。
从宏观上来看,主题图是一个多维度的空间模型。资源和主题分为上下两层。在资源层,可以上传信息资源,也可以加入动态链接,将网络资源和已有的资源放入资源层中,为多元资源的收集和存储提供了便利;在主题层,通过对资源的外部特征和语义特征进行描述,提取出主题词,从主题的角度建立关联关系,另外还可以构建独立的主题,既实现了资源之间的关联性,也可以描述资源的独立性。
从微观来看,在主题图这个多维的主题空间中,主题层中有不同的主题,每个主题代表一个结点,分别指向不同的资源。两个主题结点之间的距离可以用资源的关联次数来表示。在主题间相互关联的过程中形成了一个巨大的立体网状网络,网络中有错综复杂的关系,通过关联关系的设定,系统地梳理了资源和主题间的关系,也挖掘了资源之间更大的潜在价值。
(二)构建过程
主题(Topic)、关联(Association)、资源出处(Occurrence)为主题图(TAO)的三个主要元素,对构建主题图模型起到了引领的作用,在进行合理设置前,首先要梳理它们的涵义与关系。T就是主题。主题可以是任何“事物”,无论是实体还是概念,它可以具有任何特征;Association 为关联的意思,主題在设置好后,需要描述多个主题间的关系,通常情况下,主题与主题间有多重关系来关联,并通过关联的次数实现主题间的聚合;Occurrence 就是资源实体,也称为资源出处,这就是主题图的资源层,功能是存储资源,将资源与主题相关联。主题和一个或多个与该主题相关的信息资源以某种关联关系相关联。
本文依据主题图的基本组成要素(TAO)即主题(T)、关联(A)和资源实体(O),分析设计了基于主题图的赛珍珠研究资源关联聚合模型与构建过程,如图1。该模型由3个层次构成:
领域研究资源层,该层主要目的是建立研究资源库,选择合理有效的资源集,反映领域研究资源的主题特点;基于领域多元研究资源的特点,可从几个方面开展:文献信息资源:包括期刊文献、电子图书、会议文献等;网络信息资源:利用搜索引擎得到的检索结果,包括文本、新闻、数据、图像、视频等多种类型资源; 专业数据库:包括书目数据库、文摘数据库与全文数据库等。研究领域专家:包括研究专家的私藏作品与研究资源。
主题生成层,在本文主题图的主题层的设置中,需要依次从资源中提取主题、编辑主题和合并主题。考虑到在对某研究资源检索的过程中,大多数学者可通过研究资源的名称、作者、机构或者关键词字段进行检索,因此本文在一级主题的设置中,将研究学者、研究机构、研究资源设为一级主题,根据文本的外在特征和内在特征建立资源间的关联,如图2,包括资源的种类、日期、作者等,内在特征能够描述资源内容含义的一些特征,可用标题、摘要、关键词等表示。
功能层,主要实现的功能有研究资源导航、用户资源检索以及资源推荐、后期的资源库更新等功能。
四、实例分析
上文分析了多元研究资源整合的主题图模型,本部分以赛珍珠研究多元资源的为例,构建赛珍珠研究资源整合模型,实现资源主题关联可视化服务。
(一)资源收集
通过不同平台获取赛珍珠研究的资源,首先通过学术数据库平台CNKI中国知网收集当前赛珍珠研究的期刊文献,另外通过读秀学术搜索平台补充赛珍珠研究的电子图书,最后,为获取时事新闻与相关报道,选择人民日报网等平台作为数据来源,使用NLPIR大数据语义智能系统自动收集资源,三类平台分别以“赛珍珠”为主题进行检索与收集,时间统一为近十年,检索后对不相关结果的资源,如“赛珍珠铁观音”、“八马茶叶”等进行删减和合并,最终得到的检索结果为期刊899条、电子图书67本、新闻报道40条。
(二)主题确定
对资源深层次分析,需要进一步的对外在特征和内在特征分析,根据设置的一级主题:研究学者库,共抽取到期刊文献作者1185名,图书作者57名(含主编),新闻报道记者18名;研究机构库收集到赛珍珠研究领域期刊366种、电子图书出版机构43个和新闻报道出版机构22个。研究主题库的收集由期刊文献的电子图书和新闻报道的主题词组成。在本研究中,由于期刊文献的作者已为文献标引了关键词,可直接使用关键词反映文献的主题;本文直接从899条题录中抽取关键词,剔除重复不相关的关键词,如“研究”、“学报”等,合并具有相同含义的关键词,共得到关键词2911个;电子图书的编辑也相应为图书标引了主题词,但主题词过于宽泛,故电子图书保留标题、关键词(主题词)、摘要(对于部分缺少摘要电子图书选取目录部分)三部分内容,利用平台所提供功能自动下载其相关信息;新闻报道由于篇幅较少,缺少关键词、主题词和摘要等标引内容,保留标题、作者(平台)、文章内容三部分内容。采用中科院开发的NLPIR自然语言处理系统。具体的操作步骤为:首先对每一本图书的标题、摘要和每一篇新闻报道的新闻汉语分词,继而去除停用词,如“的”、“一个”、“和”、“与”等,提取高频词与特征词,根据分词和频次统计结果,同时人工辅助,每篇选取3~5个高频关键词作为该篇文档的关键词,剔除重复,最终得到新闻报道57个关键词,电子图书72个关键词。
(三)主题关联
在构建赛珍珠研究资源主题图中,根据资源的外在特征和内在语义特征可以定义三种主要的关联类型,即出版/发表关联、著作关联、语义关联,三种特征用赛珍珠研究资源(R)、题名(T)、作者(A)、作者机构(O)、出版物/发表网址(P)、关键词(K)等元素来体现,三种关联关系在一定程度上揭示了资源间的关系。
(四)整合实现
在完成主题关联后,需要对赛珍珠研究资源进行关联聚合。目前主题图组件中OKS知识组件在各领域中应用比较广泛,主要用于创建、维护和管理主题图,其核心组件包括主题图引擎、主题图编辑框架、导航框架、可视化框架。
依据前文描述的对赛珍珠研究资源的主题及关联分析,在Ontology编辑器中完成的主题类型定义,如图3所示,将赛珍珠研究资源库的主题设置为赛珍珠研究资源主题库、赛珍珠研究资源库、赛珍珠研究学者库、赛珍珠研究机构库。
前文分析了赛珍珠研究资源的外在特征和语义特征,根据此特征又分析了不同的关系,主要设置了以下相关关系,分别为相关作者、相关学术图书、相关新闻报道、相关期刊文献和相关机构。
在主题和關联关系设置好后,可对其可视化。主题图的可视化采用知识图谱的方式来展现主题之间的关联和网络关系,用户不需要在网页中查询,而是直接在新的窗口进行查看,如图4和图5分别展示了赛珍珠研究学者和资源的关联。在赛珍珠研究领域范围内,不同种类、不同主题的资源通过相同的特征或其他关系互相关联在一起,利用主题图技术不仅识别这些关联,导航知识,还可以识别潜在的关系,如学者的潜在合作关系、资源间的主题联系等。
五、经验启示
本文以赛珍珠研究多元资源为例,利用主题图工具Ontopia构建赛珍珠研究主题图,构建主题图之后利用其可视化工具实现了赛珍珠研究多元主题图的可视化,验证了主题图技术应用于多元研究资源的可行性。
利用主题图技术将多元资源整合,用于描述多元资源之间的关联关系,其不仅有导航功能,还提供了语义检索和语义挖掘的等功能,便于用户深层次挖掘资源的主题,既集成了传统信息组织方式的优势,在主题表达和关联的层次也做了突破,进一步的实现了资源间的共享与语义挖掘,实现了资源的集成性、关联性和语义化需求。
参考文献:
[1]张玲玲,张宇娥,杜丽.基于期刊文献与专利文献的科学技术互关联研究方法对比分析[J].情报杂志,2017,36(07):116-121.
[2]刘博文,白如江,周彦廷,王效岳.基金项目数据和论文数据融合视角下科学研究前沿主题识别——以碳纳米管领域为例[J].数据分析与知识发现,2019,3(08):114-122.
[3]艾丹祥,张玉峰.利用主题图建立概念知识库[J].图书情报知识,2003(02):48-50+53.
[4]黄晓斌.网络主题图的原理及应用[J].情报理论与实践,2004(03):305-307.
[5]秦铁辉,郭延吉,孙琳.信息时代的“全球定位系统”——主题地图[J].江西图书馆学刊,2005(01):1-3+7.
[6]赵金海,满红芳,张啸宇.开源主题图搜索引擎(TM4J)及结构研究[J].信息系统工程,2010(11):51-53.
[7]李清茂.开源主题图Ontopia引擎工作机制研究[J].西昌学院学报(自然科学版),2010,24(02):40-44.
[8]郭黎,姜晶莉,李豪,王云阁.基于主题图的多源地理空间数据关联关系表达[J].地理信息世界,2019,26(06):1-5+13.
[9]王文宁,刘涛,杜萍,邵达青,杨国林.面向洪灾全生命周期的应急场景模型[J].测绘科学,2018,43(12):44-49.
[10]张云中,冯双双.基于主题图的数字档案标注系统资源聚合研究[J].图书情报工作,2018,62(14):116-124.
[11]刘丹. 主题图在图书馆特色数据库构建中的应用研究[D].南京:南京农业大学,2008.
(作者单位:江苏大学科技信息研究所)
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!