时间:2024-05-04
郭慧
摘要:随着医疗信息化的推进,数据中心成为医院信息系统中的主要组成部分,起着至关重要的作用。但是数据中心系统庞大、专业性强及技术要求高,在运维过程中一直存在耗时长、效率低的问题。文章首先分析了数据中心须维护的内容及影响数据中心运维效率的因素,其次详细阐述了数据中心监控管理平台实现主动告警、详细定位及协助运维的策略。该监控管理平台的部署提升了运维人员的工作效率,对保障医院业务系统连续运行起到了重要作用。
关键词:医院信息系统;监控管理平台;医院数据中心运维
中图分类号:TP393文献标志码:A0引言在医院信息化管理中,医院各种信息数据管理都依靠信息系统进行收集、管理与保存。医院数据中心作为信息系统的核心架构,其稳定性是保障信息系统业务不间断的关键因素,也是全面优化医院的信息服务水平的关键点。因此,提升工作人员运维的效率,保障数据中心的稳定性至关重要。然而随着医疗信息化的推进,数据中心的IT设备规模越来越大,子系统数量越来越多,导致数据中心运维工作量剧增,出现的设备故障不能得到及时修复。基于此,如何运维才能更好地保障数据中心的稳定就成为首要问题。
1数据中心维护内容与存在的问题1.1维护内容1.1.1机房环境数据中心机房是医院信息系统数据处理的中心,对工作环境有着严格的要求[1]:温度要控制在24℃左右,相对湿度要控制在65%左右,并在机房放置温湿度计。
1.1.2UPS电源机房维护人员需定期对UPS电池进行放电操作,激活电池性能,并做好记录。保证在受控的情况下,尽早发现并替换有问题的电池。
1.1.3IT设备管理IT设备管理主要是对服务器、存储设备、网络设备和安全设备等进行的管理维护,以保证设备稳定、高效运行。维护过程中,重点检查并记录设备的运行状态,包括:CPU使用率、内存使用率、磁盘使用率、网卡状态、接口流量、电源状态等。除此之外,管理人员还要查看数据库读写性能是否完好、表空间是否存在死锁等问题。
1.2存在的问题1.2.1运维经验缺乏整理形成知识库由于缺乏有效的运维管理策略,数据中心运维人员在运维工作过程中积累了众多有价值的经验,如问题的判定、分析和处理,只能通过经验判断;对于常见故障如网络故障、数据库故障、存储设备故障等处理方法未形成书面工作文件,未被整理、分类形成知识库。这些经验只能在小范围内得到传播和继承,而不能在更大的范围内体现其价值。这样就容易导致运维过程中出现的事件性质的识别、优先级的界定以及疑难问题的分析诊断等问题只能由少数核心人员进行处理[2],从而增加了少数核心人员的工作量,也容易产生工作流程的“瓶颈”,降低运维团队整体的问题处理效率。
1.2.2缺乏有效的配置管理数据库尽管数据中心在IT设备设施运维的过程中收集了一些配置项信息,但是仅仅局限于关键业务,如门诊系统、住院系统、PACS等相关的信息系统。而配置管理数据库(Configuration Management Database,CMDB)的建设需要一个长期的过程,完善的CMDB包含IT设备使用的信息系统组件所有相关信息及组件间关系,如不同系统间数据库视图和表关系、使用的存储设备、網络配置等,同时需要科学有效地配置管理模式。当前缺乏工具支撑的简单CMDB,后续很难满足大数据时代高处理能力和处理速度的需求[3]。
1.2.3缺少面向用户的IT服务报告数据中心在运行维护过程中会生成多种报告,如系统运行方面的报告、机房环境方面的报告、备份报告、网络设备运行报告等。此类报告内容专业性强,技术要求高,仅科室内部人员和科室外少数的领导可以查阅,其他科室人员受限于权限和专业性,对报告内容难以理解,因此无法充分发挥这些报告的使用价值[4]。
1.2.4存在运维管理漏洞数据中心在运行维护过程中缺少科学有效的运维管理制度、操作规范和明确的具有可执行性的运维流程,运维人员对问题的处理流程不一致,就有可能导致优先级高的问题被滞后处理,影响系统稳定性。
1.2.5缺少集中管理的运维措施随着医院数据中心各个子系统的信息化规模逐渐扩大,网络架构和IT设备组成也越来越复杂。单凭几个独立的监控软件,通过人工读取、分析监控的IT设备运行数据的方式根本不能正确判断数据中心IT设备的具体使用情况、性能瓶颈等。另外,管理人员也不能及时发现IT设备存在的隐患,网络稳定、信息系统安全也无法得到有效的保证。
2基于监控管理平台的运维针对以上数据中心运维过程中遇到的问题,医院引入数据中心监控管理平台,旨在通过该平台全面规划、集中统一的运维方式,对网络系统、服务器等进行管理、监控,在系统出现问题的时候可以自动发出告警信息,从而提升工作人员的运维效率,保障系统稳定性。此外,利用监控管理平台的自动化、智能化方式实现对数据中心IT设备的监控,还可以减少人力物力的投入。
2.1监控管理平台功能数据中心监控管理平台是依托人工智能,利用集成技术所构建的一个综合性平台。该平台不仅可以全方位分析机房设备的运行状况,还可以自动定位部分小型故障。
2.1.1网络拓扑管理监控管理平台可以自动发现网络设备,采用3D可视化页面,从全局视角提供业务及网络拓扑结构图。拓扑图可以实现报警定位,工作人员通过告警颜色和定位确定问题级别,及时了解数据流向,以轻松掌握设备运行状态。
2.1.2业务监控监控对象主要有两类,一类是软件业务,包括:业务系统、数据库、虚拟化、软件服务等;另一类是基础设备,包括:服务器、交换机、存储、防火墙、路由器等。平台统一监控所有设备,集中分析信息,向管理人员实时提供性能分析数据,遇到故障及时发出告警。
2.1.3设备运维监控管理平台支持全天候自动化巡检,定期自动检查设备运行状态,可实时向移动端发送故障告警,同时可以快速定位设备故障,准确定位问题根源。
2.1.4资产管理监控管理平台可以实时更新及查看主机资产明细,如设备IP、系统版本和设备型号等信息。
2.2监控管理平台结构数据中心监控管理平台主要由数据采集层、数据处理层和数据展示层组成,如图1所示。数据采集层主要负责监控并定期采集被监控对象的数据,然后将采集到的数据向下发送给数据处理层。数据处理层采用CMDB技术,对采集到的监控数据进行分析与数据处理,并将结果发送到数据展示层。数据展示层支持多种展示方式,通过表格、大盘页面等方式,按要求展示全局性信息或指定内容的具体信息。
2.3监控管理平台运维2.3.1运维配置数据中心监控管理平台支持对所有硬件资源的统一配置和监控,主要监控范围包括服务器主机、网络安全设备、存储设备、数据库和业务系统等,还可以预警数据库死锁、表空间占用情况及网络安全攻击等,如图2—3所示。
2.3.2运维展示通过数据中心监控管理平台,每个运维人员都可以随时通过浏览器查看某个或所有硬件设备的运行状态及性能监控信息。设备出现故障时,监控平台根据平台中设置的人员权限,第一时间将告警信息通过微信和邮箱推送给运维工程师,如图4—8所示。
数据中心监控管理平台主动告警功能可以弥补运维人员处理关键问题时的差错,从而保证问题得到及时处理。此外,平台从多个层面、多个维度展示监控项目信息,尤其是对影响信息系统稳定的数据库死锁、网络故障和存储问题,即使是运维经验欠缺的工作人员也能在平台指引下及时处理问题,极大地降低了核心运维人员的压力,有效提升了运维人员整体工作能力和效率。
3结语数据中心监控管理平台利用其主动运维、自动操作和及时告警的强大功能,有效地解决了数据中心运维难、效率低的问题,为保障医院信息系统稳定运行起到了重要作用。但是运维人员在享受监控管理平台带来的便利同时,也要充分地利用好平台,在实际的工作中不断摸索,根据具体情况实时改进平台中的监控和告警配置策略,争取把平台的有效性发挥到最大,避免因无效信息而淹没重要的告警信息,错过修复系统的最佳时间。
参考文献
[1]高山,费晓璐.医院信息化主动式运维研究[J].中国数字医院,2016(11):98-101.
[2]孔琳.医院信息系统的安全与维护[J].医学信息,2016(7):9-11.
[3]谢之光.大数据时代下的数据中心运维管理研究[J].数字通信世界,2022(4):131-133.
[4]徐景日.大数据时代下的数据中心运维管理[J].信息与电脑,2020(2):113-115.
[5]胡剑.浅析医院信息系统运维和管理[J].信息记录材料,2021(6):27-29.
(编辑 王雪芬)
Influencing factors and countermeasures of hospital data center operation and maintenanceGuo Hui
(Nanjing Jiangning Hospital, Nanjing 211100, China)Abstract: With the advancement of medical informatization, data centers have become the main components of hospital information systems and play a vital role. However, due to the large data center system, strong professionalism and high technical requirements, there have been problems of time-consuming and inefficient operation and maintenance process. This paper first analyzes the contents of data center maintenance and what factors affect data center O&M efficiency, and then elaborates on how the data center monitoring and management platform can achieve proactive alarms, detailed positioning, and assist O&M. Through the deployment of this monitoring and management platform, the work efficiency of operation and maintenance personnel is improved, which plays an important role in ensuring the continuous operation of hospital business systems.
Key words: 英文關键词hospital information system; monitoring and management platform; hospital data center operation and maintenance
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!