当前位置:首页 期刊杂志

基于一体化运维平台的运维管理与实践

时间:2024-05-04

张翼

关键词:IT;运维;一体化

1引言

近年来,IT运维从被动运维逐步转向主动运维,但在运维体系、运维管理、运维工具等方面还存在差距和不足。集团公司进一步明确了“集中共享的一體化IT运维体系的发展方向”,同时总部组织统筹规划设计了一体化IT运维总体方案,开展了一体化运维平台建设,旨在通过建立一套“可管、可控、可视、智能”的统一IT运维平台,将一体化IT运维体系在全集团落地实施,并充分利用自动化运维工具、机器学习、大数据分析等技术,提高IT运行的标准化、流程化、集约化、自动化和智能化水平,进而提升风险预警和决策分析能力,实现集团信息化服务卓越运营。因此,围绕一体化运维平台建立一套集团公司统一的一体化IT运维体系已成为当下迫切需要解决的时代课题。

2背景

2.1数字经济时代下业务变化和新技术广泛应用,推动IT运维管理模式变革

运维服务在保证基础设施稳定的情况下,更多关注业务需求、应用系统和服务;云计算等新技术的广泛应用,驱动运维服务的对象、方式、工具和服务能力发生转变:业务对IT依赖性增强,应用系统复杂度不断提高,对运维服务效率、质量和自动化程度的要求越来越高。以上变革要求IT运维对象的集中化,运维模式的远程和双态化,运维工具的自动化、智能化,从而提高运维效率,实现智能预测分析和辅助运维决策。

2.2IT运营从系统设计开始进行全生命周期管控

ITIL,IS020000和工信部ITSS等标准中均强调IT服务的全生命周期管理。IT运营的服务能力,以及对业务的支撑度和用户满意度应从系统设计构建阶段开始建设,需要建立体系化的IT运维管控机制,以进行全生命周期管理。

2.3IT运维向智能化、集约化方向发展

在信息系统规模、复杂程度变化等方面,IT运营管控的发展经历手工运维,流程化、标准化运维,自动化、平台运维,DevOps,AIOps五大阶段,信息系统规模及复杂度的提升促使IT运维管理探寻集约化解决方案,以推动IT运维向智能化、集约化方向发展。

3基于一体化运维平台的运维管理的主要做法

3.1建立健全一体化IT运维标准体系

3.1.1完善制度标准,满足一体化IT运维实际需要

为满足一体化IT运维体系建设需求,在已有标准规范的基础上,借鉴ITIL,IS020000,ITSS等标准体系,建立四层三类的IT运维标准规范体系,主要包括《信息系统运行管理办法》《信息基础设施运维维护管理办法》等3个管理办法、14个细则/指南,用于指导和规范运维过程和运维行为。

3.1.2建立CMDB数据标准,规范数据配置和变更管理

调研集团公司和试点企业需求,全面梳理集团和试点企业的应用系统和IT基础设施资源,参考借鉴了电信行业标准YD/T 1926.5-2010《IT运维服务管理技术要求第5部分:配置管理数据库》,建立统一的配置管理数据库( CMDB),以实现所有IT数据资产标准化、透明化、集约化管理。

(1)完成CMDB数据标准的设计。由于各企业管理维度与侧重点不同,配置项属性要素存在较大差异,依据信息系统运维中对各技术层次的具体管控要求,并参考行业标准和成熟经验,通过对原始数据的梳理和优化,修订配置项目录分类,按照“以应用为中心”的原则,围绕应用自上而下地进行详细设计,形成了17个一级大类,78个二级分类和596个配置项标准要素,并完成配置项名称、编码、类型、数据等标准化设计,以形成统一标准模型。设计统一的CMDB属性库,既保持了全部属性的唯一性,又避免了二义性和相同数据重复收集的问题,便于信息的统计与消费,进而提升数据的可用性和可管性。

(2)明确配置项的约束原则。为确保在推广实施和运营过程中严格保持标准,对配置项进行了明确的规范与约束,制定了配置项命名标准、字段编码标准、数据填写规范、数据源采集规范等,以保障全集团CMDB数据的统一维护、治理、查询、统计、应用,便于对配置项调整进行集中优化调整,进而维护全集团统一、权威的CMDB模型。

(3)建立CMDB配置流程。打通CMDB全生命周期管理,确定模型建立、修改、数据更新、数据审计等流程,形成CMDB数据消费与CMDB数据更新的双向促进,进而实现配置项模型及数据标准化的落地。

(4)为保障数据的准确性、可用性、合规性、安全性,设计配置项数据审查规范和数据质量报告,以有效避免相关信息存在重复收集的现象,同时提高数据收集的完整性,进而对数据标准化进行优化反哺,为提升数据分析能力、实现数据深度挖掘能力、完善数据消费场景提供了有力支撑。

3.1.3刻画集团公司统一运维流程,实现IT运维作业标准化、规范化

(1)设计了标准化的流程模型。根据试点企业服务流程缺乏统一标准规范的问题,以及企业流程流转实现方式多样化、个性化的现状,并结合业内最佳实践,设计制定了流程模型标准,包括命名编码规则、标准字段集、表单标准、流程节点标准,全面覆盖流程配置各个节点,有力地支撑后期运营工作的开展和运维服务行为的统一管理。

(2)完成了流程的标准化。随着一体化运维平台在试点企业推广实施的不断深入,无论从管理角度还是实施角度,流程的统一标准化日趋重要。为更好地开展企业实施工作,结合前期试点企业流程调研内容和标准模板设计,并通盘考虑企业的共性和个性化需求,确定了ITIL类、服务请求类、通用类、应用系统类4大类共29个标准流程,实现了具体流程的标准化落地和业务全覆盖,加快了实施进度,切实提高了企业实施质量效率,为后续企业推广实施和运营夯实了基础。

(3)完成了集团和企业流程的统一融合。企业端服务流程可分为企业内部闭环流程和跨总部租户流程两类,跨租户流程涉及企业、总部两个租户,同一个服务流程请求提报需在两个租户下进行,操作过程复杂烦琐,服务过程质量管控困难。针对此问题,设计了跨租户流程协同机制,企业用户只需在本租户内提交申请,系统将企业工单以远程工单的形式自动转发至总部租户下,企业表单信息自动写入,自动触发总部租户相关流程,处理完成后回传数据,自动形成完整闭环。跨租户流程协同机制打通了总部与企业、租户与租户之间的壁垒,简化了企业用户操作步骤,提高了管控质量、客户体验和运维效率。

3.1.4建立并落地监控告警标准,确保系统稳定运行

针对各企业监控对象的指标多样化、非标化的问题,结合行业最佳实践,开展调研、配置、验证,实现了监控标准化。

(1)制定监控调研表及核心指标集。依据企业特色,结合厂商及行业实践经验,制定了监控调研表及核心指标集,内容涵盖操作系统、数据库、中间件、网络设备、服务器、存储、应用系统等7大类、16小类、330余个指标项及阈值。

(2)制定监控配置标准流程。根据反复实践和总结提炼总部和试点企业监控配置实施方法,制定了监控配置标准流程,内容涵盖环境准备、监控部署、监控策略配置、标签、监控视图等监控实施全过程,其规范了企业监控实施标准过程,提高了实施效率。

(3)制定告警规则。按照企业实际业务线条设置告警通知人,通过短信、邮件、站内信等方式实时将告警信息推送给相应运维人员,使企业能够实时监控应用系统和IT基础设施运行状态,从而全面有效地掌握重点信息设备和关键应用的运行情况,并结合CMDB、告警策略进行统一告警、故障定位及关联分析,及早发现问题,实现故障快速定位及恢复,以保障系统稳定运行以及业务的连续性。

3.1.5完善用户权限标准,实现用户权限的强管控

一体化运维平台现有用户及权限管理缺乏多个组织机构并行的标准化、一致性的权限架构设计,管理模式过于粗放,难以有效支撑企业内控要求的用户与岗位的权限分配。

(1)梳理系统现有问题。结合企业ERP、费用报销用户及权限多年运维经验,分析运维系统问题:该系统权限分配是用户对应角色,缺少用户岗位及业务范围的层级结构,权限架构层次单一,系统运维人员权限管理的范围与企业权限管理员的操作范围很难细分,在权限分配时容易导致权限过大的情况发生:该系统拥有权限基础结构——角色创建权限的人员范围过大,其中包括系统运维人员和企业管理员,在角色维护时,任意增加角色数量,角色随意关联,且角色之间功能交叉,导致权限模块基础数据量只增不减,冗余数据大量产生。

(2)进行系统用户权限标准化设计和配置。参照ERP大集中权限管理的设计理念,引入风险控制方法,以内控制度要求为指引,按照权限最小化原则,从功能和数据两个维度来创建角色,在组织机构的范围内创建用户组,通过用户组向用户赋予系统权限。通過用户权限的标准化,建立一体化运维平台的标准化权限矩阵,以确保标准化贯穿于企业应用的全过程,从而提高系统运行效率,减少企业上线实施的工作量,实现权限运维与业务操作的职责分离,以及实现对用户权限的强管控。

3.2打造集团公司IT运维统一呼叫中心,实现运维统一入口管理

(1)统一了集团IT运维的人口,打造统一人口。一是统一IT运维新平台门户提报人口,实现用户资源申请、问题咨询等自主提报,二是统一IT运维呼叫中心热线电话人口,总部、企业用户拨打400-XXX-XXXX热线电话。

(2)建设提升服务工具,呼叫中心业务平台与一体化运维平台工单模块、客户信息模块、报告报表模块、知识库模块四个模块的集成对接需求确认及开发提升,完成了呼叫中心业务系统集成短信平台、质检模块、考试模块、呼损问题等9个主要模块的29个功能点的需求对接确认及开发提升。通过平台集成,实现热线来电产生工单并可派单流转,形成完整运维事件的闭环,从而统一运维管理。

(3)形成完整的呼叫服务管理,通过统一人口提供统一服务,确定了以“接听率”“满意率”“解决率”等为核心指标,并接受集团公司及各用户监督,做好内部服务管控管理。设立9号投诉与建议专线,畅通用户反馈问题的渠道,做好投诉与建议、满意度评价的100%跟踪回访,做好问题受理闭环。

4基于系统完成运营设计,实现IT运维统一协同和集中管控

按照系统实现集约化、规模化管理的目标,面向企业制定了运营工作服务目录,其中包括用户及权限、租户管理、门户运营、运营分析、CMDB运营、应用支持等工作内容。

(1)设立多租户,租户内部拥有完整独立的运维系统,能够完全按需实现数据隔离,能够适配自治运维、托管运维等多种运维模式,运营租户能够更好地满足管理者需要,无缝切换到各租户,支持透视各租户的关键数据,支持全局策略的统一配置和自动分发,拉通各租户之间的运维协同,从而轻松掌控全域运行态势。

(2)通过运营租户全局维护功能,实现对标准角色和用户组、CMDB模型、流程模型、监控指标模型的集中管控,不允许普通用户进行标准化模型修改,从功能上实现标准化管理。通过全局数据查看功能,对全域数据进行收集、整合、分析,以可视化和报表报告方式进行展示,从而为管理者决策提供数据支持。

(4)对于IT业务规模较小的企业,创造性地提出公共租户概念,支持多个企业共用同一租户,主要是针对自身基础设施、自建应用数量较少,且不具备独立运维能力的企业,出于资源集约化、共享化考虑,不单独设立租户。使用公共租户,实现资源监控、流程管理、CMDB管理的集中管理,统一服务人口。在技术上,通过设计用户组和角色,以权限管控实现不同企业在同一租户下的数据隔离,以满足企业数据保密需求。

5建立IT运维统计分析和评价机制,增强运维服务质量管控

建立信息系统运维评价标准和指标,以客观反映运维交付团队的服务质量,全面掌握运维实际。通过管理模块提高服务计量、服务商等精细化管理水平,以推动企业整体IT运维服务能力和管理能力的提升,从而为集团公司运维数字化转型、高质量发展助力。

(1)收集、梳理企业在服务商管理、计量管理、知识管理、服务水平管理、报告与报表、可视化视图等业务方面的需求,设计各功能需求和业务模型、关联逻辑、表单模板、报表模型等标准化模板。

(2)结合ITSS梳理扩充指标库大类24项,含指标200余个,完成105个指标取数逻辑,可落人系统自动取数。

(3)汇总业务场景,服务报表、报告形成了5个一级大类,20个二级分类服务报表、50个三级分类服务报表,4个服务报告模板。通过标准服务的报告,实现运维数据的统一管理、查询、统计、消费。

(4)完成资源统计、告警统计、工单统计、SLA统计、应用系统状态等21个管理可视化视图,解决了决策层、管理层、执行层三个层面的管理需求。

(5)完成了知识库管理的设计和落地,按照企业现状科学划分了知识分类,形成了68类知识模板,明确了知识来源、知识应用场景、知识审核、知识发布、知识巡检、知识共享,有效解决了隐性知识不显性化、知识沉淀度差、运维人员无法针对性获取有用知识的问题,实现了知识的有效管理,从而整体提高IT运维人员能力和水平,以及提高运维服务质量和服务效率[1-2]。

6主要实践效果

6.1实时监控告警闭环管理保障业务连续性

通过对基础设施的主動采集和事件接人,结合告警策略和告警规则、告警展示和性能展示,分别为各类运维角色提供对应的告警查看视图,支持告警处置业务,以确保告警的及时接手、实现告警的闭环管理。

6.2IT资源管理实现IT资产线上化全生命周期管控

通过对基础设施和应用系统的资产配置信息管理,提升对IT资源资产的管控能力,结合流程管理、SLA管理功能,将组织、人员的运维工作电子化,以实现有效透明跟踪、合理的质量管控。

6.3自动化、智能化提高IT运维效率和应急处置能力

通过对基础设施的纳管,构建自动化运维能力基础,落地自动化场景,逐步解放人力,提高运维效率;结合智能化运维的能力,初步形成动态阈值、趋势预测场景,逐步提升AI运维能力,从而提高IT运维效率和应急处置能力。

6.4服务质量管理和评价机制促进IT运维可管可控能力提升

通过对基础设施和应用系统的资源、性能、运维过程等进行统一管理,结合统计分析、可视化功能,形成面向管理团队的决策支持数据,以提供运维服务考核评价能力,从而提升IT运维的可管可控能力[3]。

6.5线上化、流程化运维管理提升IT运维服务水平

通过服务门户、服务目录功能,构建面向用户的服务门户提报人口,结合流程管理响应用户请求;通过值班管理、知识管理、例会管理,为运维团队提供日常运维工作的辅助,从而提高IT运维服务水平。

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!