时间:2024-06-19
王永胜,刘亚丽,贾 楠,宗国浩,王 锐,王 迪,郑新章,冯伟华
中国烟草总公司郑州烟草研究院,郑州高新技术产业开发区枫杨街2 号 450001
科技文献资源是重要的科技基础条件[1],国家中长期科学和技术发展规划纲要(2006—2020)指出,科技投入和科技基础条件平台是科技创新的物质基础,是科技持续发展的重要前提和根本保障。国家烟草专卖局在行业中长期科技发展规划纲要(2006—2020)中也提出,要充分利用现代信息技术手段,加强烟草科学数据平台、科技文献平台、科技资源平台和网络科技环境平台建设。而信息资源的有效利用是推动行业自主创新的重要基础[2],积极推进信息化与烟草产业的深度融合,构筑以“用户为中心”的烟草文献数据知识检索服务平台是推动烟草文献数据共享服务向智能化、精准化、知识化转型的重要举措[3-4]。2000 年张晓林[5]提出知识服务的概念,即知识服务是用户目标驱动的服务,是面向知识内容的服务,是提出解决方案的服务,是贯穿用户解决问题过程的服务,也是能够增值的服务。知识服务和信息服务虽本质相同,但在服务程度上存在差别。信息服务是一种检索和传递显性知识的服务,而知识服务是提供解决方案的智力服务,可同时提供显性和隐性知识。信息服务是知识服务的基础,知识服务是信息服务的深层次服务,是信息服务的升华[6]。中国知网、万方数据知识服务平台、维普、超星等机构的数据库均拥有海量的文献数据资源,面向互联网用户提供各类文献数据资源的信息检索和知识服务[6]。烟草文献数据是烟草行业重要的数据资源,包含中外文烟草期刊论文、会议论文、学位论文、科技成果、国内外专利、标准、科技信息、科技图书、法律法规和设备样本等数据。近年来,随着信息技术的发展,烟草行业对科技信息资源的需求已从单纯的资源获取演变为数据知识服务[7-9],满足行业科技人员资源检索和知识服务的需求已成为亟待解决的问题。为此,通过对烟草文献数据资源进行结构化和碎片化处理,利用大数据分析和自然语言处理(Natural Language Processing,NLP)技术构建了烟草文献数据知识检索服务平台,以期促进烟草文献的知识化整合,满足行业科技人员对文献信息资源更深层次的知识需求,为推动烟草行业科技创新提供支持。
烟草文献数据知识服务平台基于B/S 架构进行设计,遵循J2EE开发标准规范并采用前后端分离的开发模式。前端主要采用LayUI、JQuery 等框架,数据检索采 用 SolrCloud 构 建索引[10];后 端采用RESTFUL API 接口技术,通过JSON 实现与前台的数据交互。结构化数据采用Oracle 数据库存储,非结构化数据采用FastDFS分布式文件系统存储。
系统体系架构主要分为数据层、服务层和应用层,见图1。数据层为上层应用提供数据支撑,包括烟草学科领域的中外文期刊、会议论文、学位论文、科技成果、国内外专利、烟草标准、科技信息、科技图书、法律法规和设备样本等文献数据资源库;服务层包括数据处理和知识加工两个模块,数据处理模块完成采集、清洗、融合、加工等功能,知识加工模块完成索引构建、文本提取、语义识别、统计分析、可视化展示等功能;根据服务层提供的知识资源整合服务,应用层实现烟草文献数据资源的智能检索、智能推荐、智能分析、科技评价以及查新查重等功能,并设置热点专题和个人中心模块。此外,系统公共组件还包括爬虫服务、资源加工、检索服务、账户管理、日志监控、权限控制以及规则库管理等模块。
图1 系统体系架构Fig.1 System architecture diagram
系统业务流程包括文献数据采集、整合、加工、审核发布、知识库构建、知识分析应用等部分,见图2。数据来源主要有互联网上离散的烟草文献数据、行业内非结构化文本数据、已有业务系统存储的文献数据以及其他文献数据。这些海量的烟草文献数据经过采集、碎片化处理、自动化导入和手动录入等方式实现了异构文献资源的集成,再经过融合、去重、清洗、标引等知识加工处理后由相应人员审核并发布到缓存库。索引管理中心针对缓存库中的元数据和全文数据构建主题索引和专题索引。文献检索分析引擎通过检索与分析接口对检索结果进行合并、排序、分类和分析等处理,为用户提供文献检索、知识展示、智能分析、科技评价等服务。
图2 系统业务流程Fig.2 System process diagram
系统以烟草文献数据为基础,采用数据融合、文本分析、知识挖掘、文献计量等技术,对烟草文献资源进行知识挖掘和知识关联分析,从广度和深度上揭示文献资源的隐性信息。系统核心功能模块见图3。
图3 系统核心功能模块Fig.3 System core function modules
针对期刊、科技成果、专利、标准等烟草文献资源,采用先进的检索技术和知识发现算法,实现了模糊检索、语义检索、意图识别、以图搜索等多种智能检索服务。此外,采用精准的知识聚类和筛选机制,开展学科分布、收录分布、机构筛选等自动聚类服务,实现了文献检索结果的细化和分层显示,帮助用户在海量资源中快速、精准地定位到最佳匹配结果,提升用户获取和利用知识的能力。文献智能检索服务功能页面见图4。
图4 文献智能检索服务页面Fig.4 Intelligent retrieval of literature resources
为帮助用户把握国内外研究主题的分布趋势,探究研究主题渗透的学科领域,发现研究主题的相关学者和代表机构等内容,从学术产出、学术影响、发文趋势、学科分布、期刊分布、代表学者、基金资助、代表机构以及最新文献等方面对检索主题词进行多维度、全方位分析,并借助数据可视化技术展示研究主题的知识脉络。针对烟草科研活动的特点和规律,结合烟草行业科技创新评价原则,研究制定了涵盖科技项目、科技成果、科技奖励、学术论文、专利、标准、著作等评价指标的烟草机构和科研人员综合性评价指标体系,实现了烟草机构和人员科研能力的综合评价功能。科技分析与评价服务功能页面见图5。
图5 科技分析与评价服务页面Fig.5 Scientific and technological analysis and evaluation
基于细粒度、碎片化、结构化的烟草文献知识元,围绕作者、机构、期刊、参考文献、关键词等内容构建烟草知识脉络,实现了烟草知识多维度、全方位的知识智能扩展服务,包括概念扩展、同义词扩展、相关热词、相关文献、合作网络、学者知识脉络等功能。其中,学者知识脉络可以提供学者文献引用情况、学术关键词、学术成果趋势分析、代表性合作学者及科研产出详细列表等服务。学者知识脉络功能页面见图6。
图6 学者知识脉络服务页面Fig.6 Scholar knowledge vein
采用SolrCloud 分布式搜索技术,构建了烟草文献统一检索引擎,实现了中文期刊资源库、外文期刊资源库、中国专利资源库、国外专利资源库、科技成果资源库、烟草标准资源库等12 种文献资源库的统一检索。SolrCloud 是一种基于Solr 和Zookeeper 的分布式搜索方法,具有中心化集群配置、自动容错、近实时搜索、查询时自动负载均衡等特点[11]。在进行检索时,SolrCloud 先将索引数据进行Shard 分片,每个分片均由多台服务器共同完成;当接收到索引或搜索请求时分别在不同Shard服务器中操作,提供检索服务。采用SolrCloud 分布式搜索技术可使全文检索准确度达到97%以上。
按照已制定的标准格式或规则,采用中文分词、自动标引等文献碎片化处理技术对烟草科技文献的PDF 文件进行处理。依据文献标注模型,根据中文文本版面的特征规律,自动完成文档的碎片化和结构化,主要包括元数据标引,文章的篇、章、节结构分析和拆分,自动提取文本中的段落、图片、表格、公式等内容,实现PDF 文档版面的自动识别和结构化解析,并生成具有统一格式、统一命名规范和组织规范的结构化数据[12]。此外,利用文献碎片化工具还可生成XML结构及附图,方便与其他业务系统进行交互及数据的二次加工。
文本关键词是指能够表达文档中心内容的词语[13-14]。在信息检索中,准确提取关键词可以大幅度提升检索效率;在知识推荐中,关键词的发现有助于获取主题思想。在烟草文献数据的文本预处理阶段,采用词向量聚类加权的TextRank 算法、LDA(Latent Dirichlet Allocation)算法等关键词提取技术,通过提取文本中的学者、机构等信息以及文献相关主题词,可以为合作关系网络的发现、文献标签体系的构建、学术关键词的提取以及研究热点主题词分析等提供技术保障。
文献共引是指两篇文献同时被另外一篇或多篇论文引用的关系[15]。采用共引加权算法从文献的标题、摘要、作者、关键词等内容中提取特征词构建特征向量,利用共引加权的相似度计算函数计算特征向量间的相似度,得到文献相似度矩阵,进而实现共引文献的聚类分析。该技术可以揭示学科内部的相互关系以及研究热点的发展脉络[16]。
基于大数据和自然语言处理等技术,采用先进的检索技术和知识发现算法,结合知识图谱可视化分析技术,对烟草文献数据资源进行了深度融合与分析,研究构建了烟草文献数据知识检索服务平台,可实现烟草科技文献的智能检索、科技分析与评价、知识智能扩展等功能,提高了烟草学科领域文献资源的整合能力、信息检索能力、知识精准定位能力以及领域知识分析能力。该平台目前还处于发展和完善中,在知识服务方面仍存在许多有待研究和改进之处,未来将围绕烟草行业科技创新发展布局和科研工作知识服务需求,从科研项目选题定题、烟草百科、领域专家智能推荐等方面入手,进一步开展相关研究,推动烟草文献数据共享服务向全面的知识服务转型。
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!