当前位置:首页 期刊杂志

数据资源编目研究及应用

时间:2024-06-01

李燕 刘道芳

(黄河水利委员会信息中心,河南郑州 450004)

0 引言

结合目录学的理论来探讨数据资源编目已经成为国内外信息化研究的主题。如国外的B.S loan在2000年11月提出了第一份数据资源建设目录。近年来各国级政府和部门非常重视数据资源目录服务体系研究,共同探讨了数据目录服务及技术支撑体系的理论研究与系统开发。随着IT技术的进步,给数据目录应用带来了机遇,在智能化和便捷化方面得到了快速发展;同时,通过运用数据目录管理技术体系,数据目录为数据资源的共享发现与快速定位变得更加方便。

从整体上看,尽管国内外学者对数据资源的共享,对政府数据资源目录体系建设探讨政府数据资源目录管理的基础设施问题等,但专门从数据资源目录角度研究数据资源信息的注册、发布、组织、管理、服务等管理问题还比较少。近年来,数据资源目录研究大多集中在数据目录技术体系理论研究,而随着数据目录技术理论体系研究的深入,以及数据资源目录服务应用的拓展,相关的理论体系研究逐步完善,应用成果日渐丰富,但在水利行业方面的数据资源目录方面的研究及应用较少,尤其缺乏其在目录体系方面的研究与应用。

1 概述

随着黄委信息化的快速发展,治黄数据资源不断丰富,数据量呈指数级增长。产生于黄委各部门数据资源,包括由测绘、地质、水文、气象、水环境、防汛抗旱、水资源管理与调度、水土保持、工程建设与管理、规划设计、科学研究、政务管理等各相关单位和部门在黄河治理开发与管理的生产实践和科学研究过程中所产生和积累的数据,分散存储在黄委机关及委属单位,且格式与标准不统一,致使大量现有的数据资料和数据成果无法被用户及时准确地了解,从而造成了这些数据资料和数据成果未能得到充分利用。因此,如何改变这些现状,适应治黄信息化建设的需求,满足人们在大量信息资源中准确、全面、迅速、方便、经济地获取所需数据资源,已显得十分迫切。这就需要实现数据资源的有序组织并提供一种支持网络发布、快速检索、定位、获取黄河数据资源即黄河数据共享服务系统。

2 数据资源目录体系架构

2.1 技术原理

数据资源目录是一种层次化可伸缩的树状结构,并具有可扩展性、科学性等特性,数据资源编目采用目录控制和资源目录元数据技术,遵循《数据资源目录及元数据标准》(SZHH 36—2012)要求,以数据分类体系和关键词表为编目控制值域,利用数据资源目录元数据,对数据资源不同类别、不同层次的目录进行重新组织和数据资源编目,满足从资源分类、业务主题等多个维度实现对数据资源的管理、发现、定位、共享,为数据资源检索和资源开发共享利用提供有效途径,并为用户提供数据资源导航、浏览等提供技术支撑。

2.2 总体架构

系统建设采用JAVA EE三层架构,软件开发中采用MVC框架,通过统一的WebService服务和基于角色的访问控制方式,实现面向信息提供者的元数据发布服务、面向信息使用者的目录查询服务、面向目录信息管理者的元数据及目录管理服务和面向管理员的系统管理服务。如图1所示。

图1 黄委数据资源目录体系总体技术框架Fig.1 Overall technical framework of data resource catalogue system

应用支撑平台是支撑应用系统开发与运行的重要基础设施,为系统提供统一标准的开发运行环境。应用服务为一个和多个具体应用直接提供支撑服务,每一个应用服务支撑一个或多个业务应用;数据服务通过封装底层数据库表形成逻辑业务访问的接口,为上层应用提供数据访问服务,其中,数据资源目录是按照一定的规则对数据资源元数据的排列,以核心元数据为主要描述方式,对数据资源进行分类和格式标准化,形成数据资源目录的控制管理与有序组织。通过数据目录实现快捷、精确地了解数据资源情况,实现对数据资源的导航、检索、定位和交换服务;元数据管理服务提供对黄委的全部元数据进行管理和服务功能,建立集中的元数据数据库。核心元数据为目录检索服务,全文元数据为数据共享下载和数据共享交换服务;数据交换服务是在统一的数据传递机制、统一的数据接口标准和统一的数据格式的基础上,实现应用系统间统一的数据交换与共享;目录服务主要是以元数据为核心的目录查询服务,提供搜索引擎和目录查询功能。也提供核心元数据和数据目录元数据的上传和发布。服务资源的发布与管理采用集成开发平台来实现。服务发布管理通过服务登记注册,在应用支撑平台进行发布;集成工具是遵循应用支撑平台技术架构封装各类开发生成的服务资源,通过集成服务登记注册,在应用支撑平台进行发布。

3 关键技术

3.1 数据资源分类与编码

3.1.1 数据资源分类

数据资源分类是在参考国家和行业相关标准和遵循科学数据分类基本原则的基础上,在数据集保证稳定性、惟一性、可扩展性等原则下,结合黄委数据资源的实际,采取以线分类法为主、面分类法为辅和结合数据资源来源的分类方式,对数据资源按照门类、大类、中类、小类进行划分,以进一步确保分类体系的完整和正确。

黄委数据资源分类划分为基础地理、遥感、经济社会、水利水电工程、水文气象、水环境及水生态、水土保持、防汛抗旱、水量调度与水资源管理、规划设计、科学研究、政务管理、图书档案和新闻媒体等14个门类,对每个门类,又进行大类、中类和小类划分,其中,基础地理数据和遥感数据采用混合分类法。基础地理数据按线分类法划分到中类,遥感数据按线分类法划分到大类,中类按面分类法。其他12类用线分类法。该分类方案基本涵盖了黄委数据资源生产、加工、使用和管理维护过程中的不同视角,能够较好地满足对黄委数据资源进行组织、管理和使用的需求,而且易于理解和接受。

3.1.2 数据资源编码

数据资源编码是在数据分类的基础上将资源对象(编码对象)赋予具有惟一的符号,从而确定数据资源的位置,参照国际上通行的做法,结合国内数据资源标识的发展趋势,黄河数据资源编码采用7 位混合码,门类为1 位英文字母码:A~Z;大类、中类和小类各2位数字码:01~0 9,按采用线分类按门类、大类、中类、小类的从属关系顺序编码。

3.2 元数据

结合黄河数据资源的实际情况和业务特点,对现有元数据标准进行了扩展,制定并颁布了《数据资源目录及元数据标准》,包括资源的描述信息、内容信息和联系信息,与现有元数据标准不同的是,内容信息随数据资源类型的不同而变化,以便用户对数据资源的了解和检索。元数据的存储采用逻辑集中、物理分散的模式。借助数据目录数据,实现对数据资源的管理、定位、共享和交换,为使用者浏览数据资源的基本情况,发现和共享数据,实现方便快速地查询、交换、管理数据资源。

3.3 面向角色定义和基于Web服务的数据资源编目服务集成模型

在明确数据资源目录使用对象基础上,通过分析Web Services的基本协议及应用模式,针对黄河数据资源特点及满足不同用户差异化的数据资源共享的需求,对We b服务技术、角色访问控制和资源目录思想加以集成应用,使数据资源具有不同的角色属性,构造出基于角色访问控制的数据资源编目服务集成模型。该模型把数据资源信息通过SOAP封装和元数据描述,包装成Web服务,并对不同数据资源不同内容描述的元数据进行分类组织和编目,同时,与角色信息集成,开发完整的基于角色访问控制的数据编目,为不同权限的用户提供相对应的数据资源的元数据发布与共享的一套完整解决方案。其模型如图2所示。

图2 面向角色定义和基于Web 服务的数据资源编目服务集成模型Fig.2 Integrated model of role-oriented and web-based data resource catalogue services

3.3.1 面向资源目录提供者的元数据注册服务

该服务针对元数据注册人员,它根据《数据资源目录及元数据标准》(SZHH 36—2012)而开发的数据资源目录元数据注册发布模板,并通过目录元数据的自动抽取和数据项复用技术,从不同的数据资源分类中,提取和复用相同元数据的描述信息和联系信息,形成一个数据目录特征值域,为建立数据目录体系奠定基础。具有元数据注册、自动更新等功能。元数据注册人员可以对基础地理、遥感等数据资源,按门类、大类、中类和小类的目录元数据进行注册,目前,已完成基础地理、遥感等数据资源目录的各类目录元数据及节点元数据的注册。

3.3.2 面向资源目录使用者的目录检索和数据下载服务

该服务针对数据资源目录使用人员, 它是在遵循《数据资源目录及元数据标准》(SZHH 36—2012)的基础上开发的目录服务,具有目录浏览、检索和导航服务功能,将数据资源以目录树的形式组织起来,以层次分类的形式展现给使用者。使用者可以对基础地理、遥感等数据资源,按门类、大类、中类和小类进行逐层展开浏览和导航,目前,已实现对基础地理、遥感等数据资源各门类目录元数据及节点元数据的检索和节点数据资源的下载。

3.3.3 面向资源目录管理者的元数据及目录管理服务

该服务元针对数据资源目录管理人员,根据业务工作流程和数据资源管理现状的基础上开发的管理服务,包括元数据管理和目录管理两个方面的内容,其中,目录元数据管理主要实现数据资源目录元数据的增、删、改、审核、发布等,目录管理主要实现目录生成、目录注册、目录增加等功能。管理人员可以实现对基础地理、遥感等数据资源各门类目录元数据及节点元数据的审核、发布、修改、编辑等。

4 结语

在分析国外数据目录体系研究和实践的基础上,结合我国数据目录管理与服务的现状和需求,在黄河数据资源目录研究及应用的基础上,丰富发展了水利数据资源目录体系,提出了面向角色定义和基于We b服务的数据资源编目服务集成模型,首次为黄委用户提供数据资源目录浏览与查询。

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!