时间:2024-09-03
周 娜1) 李永红2)
基于ITIL的地震数据库运行维护体系的研究与设计
周 娜李永红
1)中国地震台网中心,北京 100045 2)山东省地震局,济南 250014
借鉴国际先进的信息技术基础架构库(ITIL)运行维护管理方法论,针对地震行业Oracle数据库的维护现状和存在的问题,结合地震数据库的维护管理实际需要,从运行维护组织架构、流程制度规范和运行维护管理框架三个方面,论述了如何构建地震数据库运行维护体系。对加强地震数据库运行维护管理,提高运行维护效率,改善运行维护质量具有一定的参考和借鉴价值。
地震 数据库 运行维护体系 ITIL
随着“十五”中国数字地震观测网络项目的建设完成,地震行业在国家中心、41个区域中心、33个应急中心、300个县节点、300个台站部署完成了Oracle数据库系统,其中双机系统79套,单机系统600套,以支撑测震、前兆、应急、信息和日常办公等多业务的运行。几年来,随着数据库系统的部署运行,在运行维护中出现过很多问题,主要体现在运行维护体系中的三个要素,即人员、组织流程规范和技术支撑平台三方面的不足。为此,急需建立先进的运行维护管理体系,实现主动积极的运行维护管理,确保数据库系统安全、可靠、稳定运行。地震行业Oracle数据库作为重要的IT资源,可借助ITIL运行维护管理方法论的服务支持模块,针对目前的现状和存在的问题,建立适合地震行业数据库运行维护管理体系,实现“主动运行维护、业务不中断、数据不丢失”的运行维护目标。
1.1 ITIL技术及应用
IT基础设施技术架构库(ITIL)是一种运行维护管理方法论,可以有效地提高IT资源的利用率和服务质量,指导政府或企业高效、经济地运营信息化设备和系统等IT资源。主体框架主要包含6个模块:服务管理、业务管理、IT基础架构管理、IT服务管理规划与实施、应用管理和安全管理,ITIL框架如图1所示。主体框架的核心是服务管理,包含两部分:服务支持和服务提供。其中,服务支持主要规范日常工作中对各种场景的处理方法,面向终端用户,归纳了与IT管理相关的5个运作层次的流程,即:事件管理、问题管理、变更管理、配置管理和发布管理。
ITIL在20世纪90年代后期,被相关企业引入中国。在企业研究组织的推动下,越来越多的中国企业开始用ITIL管理自己的IT服务。如:中国银行在2000年引入ITIL框架模型;中国工商银行在2004年引入ITIL模型建立运维系统;交通银行在2007年开始进行基于ITIL的流程再造(安锋等,2010)。中国石油西南油气田信息系统从运行维护组织架构、流程制度规范、技术支撑平台3个层面出发,成功建立了该油气田信息系统的运行维护体系,经过建设和应用,西南油气田信息系统运行维护质量与效率明显提升(蒋晓玲等,2012)。广州交警结合ITIL,从制度、规范、组织、流程、表单和管理工具软件等方面入手,建立了完整的运行维护管理体系(傅贵等,2007)。清华大学结合ITIL构建了由运行维护服务管理、规章制度与规范化、运行维护队伍建设3部分组成的运行维护服务体系(戚丽等,2008)。
1.2 地震行业Oracle数据库运行维护存在的问题
目前,Oracle数据库系统部署在国家中心、41个区域中心、33个应急中心、300个县节点、300个台站,其中双机系统79套,单机系统600套。支撑行业数据库运行的硬件平台多样,具体表现为:①数据库系统的部署环境多样复杂;②数据库系统的技术结构复杂,管理难度高;③数据库系统地域较分散;④系统管理分散。随着数据库系统运行周期越来越长,数据库运行维护凸显出越来越多的问题,主要表现在以下几个方面。
(1)被动的运行维护工作模式。数据库运行维护人员一般被动地等待问题或故障的发生,故障发生后忙于进行紧急处理,导致运行维护质量不高,甚至影响正常的业务运行。
(2)缺乏统一的监督和管理。数据库运行维护过程中,对处理过的各种问题或故障,缺乏统一的记录和分类,无法跟踪和监控问题的处理情况,难以对已发生的问题进行分析,从而采取措施避免同类问题的再次发生。
(3)缺乏运行维护经验和知识的共享与积累。数据库运行维护中故障与问题的处理记录往往保存在当地区域的运行维护人员手中,或者故障与问题处理没有记录存档,相关经验难以积累和共享。此外,运行维护人员因岗位调整或离职等原因,运行维护知识无法转移到新的运行维护人员手中。
(4)缺少量化的绩效考核指标。在运行维护工作中没有建立量化的考核指标,运行维护人员的工作绩效在很大程度上依赖于负责人对其的主观印象,无法准确考核运行维护人员的绩效,使得运行维护人员的积极性得不到提高。
(5)数据库管理和维护缺乏科学依据。缺乏一套有效的数据库监控系统对数据库运行状态的各关键指标信息进行数据搜集和统计,完成如日常性能监控、每月性能评估、数据库审计等人工工作量大,难以完成的工作,将数据库隐患消灭在萌芽状态(秦士兵,2012)。
地震行业Oracle数据库系统支撑了测震、前兆、信息、应急、日常办公等多种应用,成为地震业务、政务系统运行的基础保障,数据库系统运行水平直接决定了业务系统运行质量。如何建立一套行之有效的数据库运行维护管理体系,改变原有的方式,变被动服务为主动服务,已经成为地震行业数据库建设中需要高度关注的课题。作为IT服务管理的最佳实践ITIL,将P(process,流程)、P(people,人员)、T(technology,技术)作为IT运行维护管理体系建设中的三要素(李淑娟等,2008)。地震行业数据库运行维护可参考三要素的原则,结合地震行业数据库的实际状况,构建地震行业的数据库运行维护体系,以提升数据库运行维护水平,规避数据库故障风险。
2.1 运行维护组织架构
目前地震行业各区域数据库系统自行管理维护,在各区域内部,还按照应用进行划分来实施数据库管理,这就导致了数据库运行维护缺乏统一管理和监督,甚至缺乏运行维护经验和知识的积累与共享。根据目前数据库运行维护组织结构存在的问题,结合地震行业的实际情况,可组建以数据库系统运行维护组为核心的三级运行维护组织结构,具体如图2所示。
将权力和责任向最熟悉系统的一线运行维护组倾斜。运行维护小组设组长,实施组长负责制。实施从硬件系统、操作系统、数据库、存储系统的全系统维护,小组由系统管理员、数据库管理员(兼组长)、存储系统管理员等构成。这种架构能在不改变现有行政组织架构的前提下使运行维护的组织更加灵活,工作职责和工作界面更加清晰。
2.2 流程制度规范
完善的规章制度与流程规范是数据库运行维护有条不紊进行的保障。数据库运行维护制度和规范建议包含几方面内容:管理条例、工作规范、运行维护档案、技术文档以及数据库开发指南。
(1)工作规范。是指对运行维护中一些重复性的工作,根据技术要求以及工作经验制定的工作顺序以及工作要求的文档。运行维护小组成员在工作中必须遵守,以确保基本的运行维护水平。
(2)运行维护档案。运行维护小组成员将运行维护工作中遇到的问题进行归纳整理,把经过实践证明正确的、成熟的解决方案归档,为以后类似问题的解决提供共享和经验积累。
(3)技术文档。用于运行维护小组进行相应处理或操作时的技术文档参考。例如“数据库日常维护手册”、“操作系统日常维护使用手册”、“磁盘阵列系统管理员使用手册”、“用户服务管理流程”等。
(4)数据库开发使用指南。是指导数据库用户开发使用应用系统的操作指南和常见问题的建议。
2.3 运行维护技术体系
在完善运行维护规章制度与工作规范的同时,为了提高运行维护的精细化、自动化水平,强化流程制度规范执行的强制性和规范性,本文以ITIL运行维护管理流程方法论为基础建立了运行维护技术体系,具体如图3所示。运行维护技术体系主要分为4个部分:运行维护管理平台、数据管理平台、运行维护支撑平台、数据库监控平台。
2.3.1 运维管理平台
为了规范日常工作中对地震数据库运行中出现的各种问题的处理方法,参照标准ITIL的服务支持流程部分,主要包括服务台和相关的5个运作层次的流程,即:事件管理、问题管理、变更管理、配置管理和发布管理,结合流程管理规范,开展运行维护管理平台的建设。运行维护管理平台实现运行维护管理的主要流程和管理职能,在实现过程中将流程管理规范纳入,并结合到运行维护管理平台的各个模块中。
(1)服务台。服务台是数据库系统最终用户与运行维护小组的联络点和报障台,也是运行维护小组掌握系统运行情况,进行故障处理等维护工作的平台。服务台的最大任务就是登记报障记录、指挥维护人员执行维护流程、监督维护过程以及综合协调解决维护中出现的各种突发问题。
(2)故障管理。迅速回应与数据库有关的故障,尽快恢复,使之正常运行。
(3)问题管理。问题管理就是要主动预防数据库故障的发生,可称之为预防性维护。数据库应用和基础架构建设中识别到的任何问题,都必须在问题管理中得以记录。实际上,可以通过以下两种途径启动问题管理流程:一种是通过故障统计分析,发现常见故障,然后归结为“问题”,启动问题管理流程;另一种是通过建立系统巡检制度,主动发现“问题”,在“问题”尚未形成“故障”前解决。问题管理中识别的问题,通过触发变更管理得以解决。
(4)变更管理。记录与数据库有关的变更。如:硬件系统的变化、体系结构的变化、数据库业务的细节变化等,都必须遵循变更管理流程。通过变更管理,能够对变更进行影响评估,确保变更对正在运行的业务应用产生最小的负面影响,同时通过变更审批流程进行沟通和协调,确保有关人员都知道这个变更以及所带来的影响,保证变更具有可追溯性。变更管理触发配置管理,使得配置管理将其变化更新到配置管理数据库中。
(5)配置管理。配置管理主要详细记录数据库应用和基础体系结构中的各种软硬件信息,供其它流程使用。这些配置管理信息包括:数据库服务器的详细配置信息(品牌、型号、配置)、数据库的详细配置信息(版本、存储系统为之分配的存储资源、体系结构中的关键点信息、业务应用、业务应用负责人、运行维护负责人、放置位置、联系电话、供应商、保修期限、供应商维修电话)等,而且也不限于这些信息。记录完整的信息将其存放到配置管理数据库(CMDB)中。
2.3.2 数据管理平台
数据管理平台的数据主要来源于运行维护管理平台,是存储和管理数据库运行维护的相关数据,主要包括:运行维护知识库、配置数据库、事件问题库和监控数据库。
(1)运行维护知识库。将数据库运行维护中每次的事件、故障或者问题解决过程中所获得的成熟的解决方案记录到知识库中。当再次遇到类似问题时,可依据此历史解决方案和建议进行处理,达到知识经验共享和快速解决问题的目的。
(2)配置数据库。详细记录了与数据库有关的软硬件的配置信息以及相互的关联关系,通过配置管理库,真实地反应了数据库应用和基础架构的配置情况,为事故管理、问题管理、变更管理和发布管理的运作提供支持。
(3)事件问题库。记录故障和问题的详细信息,包括处理的交互过程、详细的解决方案以及相应的附件等,从而实现对故障和问题的跟踪和监督,并出具相关的统计报表,使运行维护小组可以按照不同的维度,对故障和问题进行统计分析。
(4)监控数据库。将底层数据库监控管理平台中采集到的各类监控指标信息统一记录到监控数据库中,并设置相应的报警阈值,当性能超过阈值时,通过短信方式通知相关的数据库运行维护负责人。
2.3.3 运维支撑平台
运行维护支撑平台用于支撑运行维护管理平台中的各种活动。如:通过工作流来实现运行维护流程的自动化处理;通过报表引擎来设计各种主题报表;通过日志管理来记录系统中所发生的所有行为;通过权限管理来为用户分配不同的权限(周旻等,2012)。
2.3.4 数据库监控平台
建立一个集中的数据库监控平台,从被监控的数据库中采集各类指标监控信息,在大量各类监控指标信息的历史数据基础上,对被监控的数据库运行状态进行统计分析,从而判断被监控数据库的运行状态,实现数据库日常监控、性能评估、数据库审计、统计分析等功能(秦士兵,2012)。当监控指标信息超过阈值时,系统将自动在运行维护管理平台中创建一个事件,详细记录报警信息,并通过短信形式通知相应的数据库负责人和数据库运行维护人员,改变以往被动服务的局面,提高系统无故障运行时间。
本文首先简要地对ITIL运行维护管理方法论进行了介绍,然后引出对地震数据库的运行维护现状和存在问题的调研和分析,最后结合地震行业数据库运行维护的实际需求,提出地震数据库运行维护体系,为地震数据库运行维护的加强,提高运行维护质量和效率提供了一定的借鉴和参考。
安锋,吴华晖,2010.ITIL在农村信用社运维管理中的应用.华南金融电脑,11:92—93.
傅贵,胡少鹏,周敏,吴毅能,2007.如何实施基于ITIL的IT运维服务管理——广州交警IT运维服务管理实践.广东科技,167:49—50.
蒋晓玲,林钟灵,2012.基于ITIL的油气田信息系统运行维护体系的构建——以中国石油西南油气田为例.天然气工业,32(S1):162—164.
李淑娟,赵泽宇,宓詠,2008.信息化校园应用的运维监控保障研究. 实验技术与管理,25(8):11—14.
戚丽,蒋东兴,袁芳,沈立强,吴海燕,2008.高校运维服务体系的研究和实践.实验技术与管理,25(7):2.
秦士兵,2012.电力企业信息系统中Oracle数据库运维管理.中国新技术新产品,21:41—42.
周旻,陈之华,2012.基于ITIL运维服务管理体系的研究与设计.信息安全与技术,5:8—9.
The ITIL Based System of Seismic Database Operation and Maintenance
Zhou Naand Li Yonghong
1) China Earthquake Networks Center, Beijing 100045, China 2) Earthquake Administration of Shandong Province, Jinan 250014, China
Reference to international advanced Information Technology Infrastructure Library (ITIL) operation management methodology, with consideration of the actual needs for seismic database maintenance management, we developed a seismic database operation and maintenance system. Three important aspects regarding the system are discussed in this paper, including tissue architecture, process rules and norms, and the management framework of operation and maintenance.
Earthquake; Database; Maintenance system; ITIL
中国地震台网中心青年基金项目资助
2013-06-31
周娜,女,生于1978年。中国地震台网中心信息网络部工程师。主要从事计算机网络维护、数据库管理等方面的工作。E-mail:zhouna@seis.ac.cn
周娜,李永红,2014.基于ITIL的地震数据库运行维护体系的研究与设计. 震灾防御技术,9(2):317—323.
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!