当前位置:首页 期刊杂志

基于语义的科技文献检索技术研究

时间:2024-07-28

曹玥, 贾砚池, 王峥*

(1.四川大学华西医院, 成都 610041;2.西南财经大学天府学院, 成都 610074)

0 引言

在信息高速时代中,从大量的海量信息数据中检索出符合自己查找的内容,传统的检索技术手段变得越来越低效[1],传统的信息检索手段一般是基于关键词匹配,这种匹配方式获得的结果大多是松散的,不成体系的。这种获得知识的手段往往是机械的,非智能的。为了解决上述的科技文献检索的问题,利用语义Web来进行检索,语义技术的核心是本体技术,通过本体技术获得精准的科技文献检索结果,相较于机械式的检索方式,根据语义的检索,具有智能化的推理检索[2],合理地对检索结果进行概念扩展,对于检索结果的查全率和查准率获得极大的提高,同时伴随着Lucene、Nutch和各种爬虫技术的高速发展,全文检索的搜索引擎也被大量使用在检索过程中,基于本体技术的层次化的语义相似度思路上的研究成果也十分丰硕,本文通过阐述信息语义共享和本体技术的运用,分析和实现语义检索模型的语义扩展和规范化推理过程,对检索词的量化扩展,可以给用户提供令人满意的信息检索效果。

2 科技文献检索及其语义问题

2.1 语义概述

语义网的概念最早由T.Berners-Lee和J.Hendler于1998年提出[3]。语义Web主要是为了说明两个实体间的关系而产生的,主要是用于网页数据。从那时起,语义Web的概念就一直在扩展。目前,语义学的重要意义是用包含语义学的链接来描述世界上两个实体之间的关系,形成一个包罗万象、具有推理能力的庞大知识库。语义网扩展了当前互联网的功能,显示出事物都是相互联系的,语义网可以理解为进行人与计算机交互的实体[4],语义网可以促进人们更好地利用互联网中的数据。

关联概念模型用于知识建模、知识存储、知识共享和推理知识生成新知识。语义Web包括xml、rdf、owl、本体等重要概念。本体是对现实世界的抽象描述,它只包含有价值的数据。语义Web的总体结构及其不同层次的语义表达功能,如图1所示。

图1 语义网层次结构

科技文献数据模型多,语义模糊,数据稀疏,难以建立固定的结构化模型。利用语义本体对科技文献数据进行建模,可以较好地解决这些困难。不同的信息检索模型采用不同的语义本体对科技信息的数据进行描述,语义本体是这种模型的基础,该模型可以统一地管理这些元数据,对语义本体来说,这样的做法更加精确,可以发挥出更好的效果。

2.2 语义信息共享

支持语义的信息检索模型主要是为了对数据进行数据的操作,数据共享主要考虑语义共享和语法共享两个重要的知识点[5],语义共享注重信息的内容,语法共享考虑对数据访问的问题,在数据领域中,需要保证在数据信息共享的过程中,语义转换的信息不会产生数据丢失,对应于上下文的语义环境对数据进行语义描述。

语义映射还可以应用于更广泛的领域,提供了该领域概念的统一描述。本文提出的语义配置和映射是相似的,但又有所不同。语义映射是一种解决由不同系统表达的相同概念的方言问题。其次,语义网通过融合语义的扩展定义和扩大当前的Web,尤其针对语义Web,进行语义的科技文献检索中,十分需要向体系结构以及语义实现技术的结合。

3 语义检索模型及语义本体技术

在本体技术中,本体重点考察的是客观事物的抽象本质,本体是相关研究领域的词汇关系与术语的综合,本体是共享概念模型的形式化描述,本体的概念是包含四层意思,分别是指概念模型、形式明确以及数据共享,概念模型的表现含义独立于语义的环境状态。明确的意义是指概念上的定义的约束形式,数据共享保证相关领域的概念集合,针对是某种概念的总体集合而非独立的个体信息。针对本体概念的形式化描述,分别具有不同的构建方式,本体具有的几种特征要素独自是其声明、公理、概念、属性以及关系[6]。本体的描述语言OWL是在DAML描述语言发展而来,OWL Lite保证用户的简单约束,表现一个分明的层次分类方法,其转换速度更为迅速,而OWL DL则是支持推理功能的系统,利用推理方法增加计算的完全性与可靠性,提供良好的逻辑处理方法与可推理性的计算性质。OWL Full提供丰富的表达能力,在OWL Full中,自身既可以作为语义个体存在[7],也可以作为多个个体的集合,也可在本体的基础上,支持预定义推理成分。OWL Lite、OWL Full都可以作为RDF的约束化扩展。而RDF则可以作为OWL Full的文档[8]。

相比于传统的科技文献检索,基于语义检索的模型具有更高效的检索过程、更加准确的检索结果的手段,传统的科技文献检索包含截词检索、全文检索、布尔逻辑检索以及字段限制检索[7],突出了本体在科技文献检索的优势明显,本体可以用来表示丰富多彩的相关领域现象的知识的逻辑抽象,本体对知识的获得和积累是等级结构严密的、知识描述全面和概念规范化的机器推理和自动化处理方式[9],并且保证知识的不断的动态更新,本体对相关领域的知识具有删除、修正和改变的可操作性。本体的作用及其应用模式如图2所示。

图2 本体在检索系统中的应用模式

4 用本体技术实现科技文献检索

4.1 系统分析和总体架构

需要在相关领域的专家指导下,帮助建立起相关领域的本体,将数据源根据严谨的数据结构方式补充到数据源中的文献当中[10],对于用户界面的响应将查询个体转换成规范化格式,匹配出相关知识领域的集合,经过定制化处理后,将获得的检索结果呈献给用户,完整地实现了由字面匹配向语义概念匹配的提高。结构的构建图如图3所示。

该系统功能的架构流程包括系统的本体构建,将本体与关系数据库的映射关系,建立区语义索引,在实现检索引擎的功能,加入本体索引的文件,利用推理机对用户输入的关键词进行合理化的概念推理和扩展,使用Jena工具对本体施行快速化的查询操作,如图4所示。

系统的开发语言采用Java语言,该语言可移植性强,是面向对象的、分布式的编程语言,开发环境IDE采用eclipse,该开发环境集成了许多语言开发包。本文所使用的的全文索引应用包Lucene是定义了索引文件格式,是基于Java语言的语义开发工具,可以兼容不同的文本格式,具有强大的查询引擎,降低了学习扩展的索引能力,默认包含了模糊查询方式、文本布尔操作方式以及分组查询操作。

图3 方案设计结构图

图4 果树栽培技术领域本体及文献数据映射的科技文献检索示例图

系统的总体构架包含用户页面模块、本体构建模块、文献映射模块以及检索处理模块,各个模块之间保持着协作和联系的关系状态,共同组成一个完成的总体,实现一个完整的查询功能,其系统体系结构如图5所示。

用户登录进用户页面,用户发送用户请求,系统产生响应模式,用户可以操纵检索处理模块,通过由相关领域专家和本体编辑工具构建出本体,本体资源主要由推理机和本体库组成,推理机接收到检索索引提示,通过本体库发出索引,文献资源单位依据索引,返回出合适的科技文献数据。

4.2 模块设计与算法实现

在考虑本体与科技文献的数据库的映射关系,将本体与文献数据相结合,构建起对应的关系,数据库的信息由海量的文献数据信息组成,当本体库与文献数据库联系在一起,检索该领域知识的某些个体知识,生成合理的索引构建,每个文献实例的产生会与它检索的最为靠近的数据概念组合在一起放入到索引文件中去,形成一个完整的总体,其流程如图6所示。

图5 系统体系结构

图6 本体/文献映射模块结构图

在基于Lucene的检索引擎设计当中,在它的基础上进行二次开发,建立起一个面向对象的高效检索引擎,通过语义检索建立的索引文件,采用推理机制实现对原始搜索信息的推理优化,具体如图7所示。

图7 推理引擎与检索引擎关系

根据Jena API对本体建模语言的数据结构存储分发到数据库后台,通过输入的查询语句,放入到Lucene的推理引擎,对查询语句优化后,实现加载推理范式。

4.3 实验结果与分析

该系统的测试任务是测试三种检索效果算法的平均精度和检索时间性能。这三种搜索算法分别是:全文检索;基于语义检索以及基于语义推理的检索。在实践中,我们需要处理的问题是,由于实验系统中的文档集合的大小有限,一些问题不能满足文档的临界值。例如,在使用全文搜索算法搜索“试题”时,共有93个文档,但实际相关文档只有32个,所以当文档的临界值为40和50时,准确率无法计算。在这种情况下,我们不是估计准确率,而是根据相关领域问题的 文档临界值的平均准确率来进行算术平均运算,期其测试比 较结果如表1所示。

表1 三种检索算法的平均查准率比较

5 总结

本文从实际出发,与传统的科技文献检索作比较,研究了文献检索与语义Web的联系,通过使用语义模型的本体技术对检索方式进行改善,针对科技文献检索的模型,提高检索的准确率,分析了概念之间、实例之间的语义关系,最后通过将全文检索方式、本体检索方式和基于语义推理检索的方式,采用优秀的面向对象的编程方法,以本体技术为核心支撑点,采用逻辑推理方式进行语义检索,得到用户需要的检索结果。在未来的研究中,提高文献数据的清理算法效率,减少重复检索记录和检索时间,需要深入考虑各种语义关系的排序方式,以满足不同用户的检索需求。

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!