当前位置:首页 期刊杂志

高校校园数据中心托管平台运维管理探究

时间:2024-05-07

王光武 孙涛 周纯玉

摘  要 校园数据中心作为学校教育信息化的核心,承载着信息化建设的各项业务平台。数据中心通常为校内单位提供信息化平台托管服务,由于权限的特殊性,如何在有限的权限范围内保证平台稳定运行,是运维者所面临的重要任务。通过研究与总结校园数据中心托管平台的日常运维工作,希望能够对相关运维者提供一定的借鉴价值。

关键词 高校;智慧校园;校园数据中心;托管信息化平台;运维管理;Cacti;RAID

中图分类号:G434    文献标识码:B

文章编号:1671-489X(2021)06-0009-03

0 前言

随着智慧校园的不断发展,国内各大高校先后建设或者改造自己的校园数据中心。校园数据中心除运行整体校园网络核心设备、关键应用系统外,为了更好地助力学校信息化事业建设,通常还为校内各单位、部门提供包括实体服务器、虚拟机、信息系统等平台的托管服务,以此满足学校各二级单位(部门)各类信息系统的互联网访问需求、硬件环境运行等。上述各类托管信息化平台在学校教育信息化建设中同样发挥着不可替代的作用。

在高校校园数据中心不断完善、丰富各项内容建设、提高服务能力的同时,数据中心运维人员除要对权限范围内的核心系统、设备进行管理与维护外,还需要监控与保障各托管信息化平台的正常运行。托管信息化平台有其特殊性,运维人员不会具备这些平台的最高管理权限(权限在托管单位管理),也不能操作其具体业务,所管理的范围通常仅包括设备的运行环境,如电力供应、温湿度保障、网络连通、硬件运行监控等,也就是通常所说的硬件设施的管理[1]。故此类信息平台的维护工作是需要数据中心运维人员与托管信息化平台管理人员协同配合才能完成的。

虽然无权限涉及托管系统的业务管理,只有硬件部分管理与监控,但是也不要轻视此项工作,如果稍有差池,轻者导致托管平台访问中断若干时间,在一定程度上影响用户使用体验;重者造成信息系统的数据损坏或系统瘫痪,甚至是重大的经济损失[2]。

信息系统可用性即信息系统正常运行时间占总运行时间的百分比。对于信息系统这类Web站点来说,行业内通常使用n个9对可用性进行量化[3],如表1所示。

当然还有一个9甚至六个9的定义级别,但是对于1~2个9来说,分别代表总运行时间内业务可能中断的时间是36.5天、3.65天,这种级别对于对外提供服务的Web信息系统来说已经不再适用。那么如何保证服务达到基本要求的标准——99.9%,就成为摆在运维人员面前的关键任务[4]。本文从托管平台的数据安全、环境维护、监控机制等方面入手开展研究,不断明确各类托管平台的管理及运行现状,根据日常运行情况逐步发现并解决已经存在的各类问题。同时要及时掌握其潜在的运行风险,进而提出合理对策,以此增强托管平台的安全性和稳定性,保障信息系统内部数据的安全,实现对资源的有效运用,显著提高信息系统访问的外网连通率,最终使信息系统达到99.9%甚至更高的可用性。

信息系统可用性并不完全取决于硬件,而是由软硬件共同决定的。对于承接信息系统运维托管工作的人员来说,信息系统内部如数据库、中间件等组件,或是信息系统后端管理、代码实现等,他们是无权管理的,此部分内容将依靠信息系统开发厂商服务、与托管单位管理人员协同配合等方式来实现。运维人员更多是帮助托管单位在服务器硬件、网络连通、运行环境、系统监控等外界环节进行建设与完善,以此逐步提高信息系统的可用性。

1 数据安全

对于托管平台即信息系统维护而言,由于其对外提供信息资源访问服务,将存储若干的关键数据,因此,首要任务就是保障托管平台上这些关键数据的安全。

数据备份与恢复  对于数据安全来说,数据备份与恢复是一项关键及常见的保护手段。由于安全问题的出现多数情况下都是没有预兆的,也很难对安全问题有一个细致的辨别,不仅有来自外界的非法渗透、入侵等安全威胁,信息系统自身内部同样存在硬件老损、系统异常等导致数据损坏的隐患。为此,数据备份可以有效保障信息储存的完整度,主动对不可预测的灾难事先进行有效预防,避免因遗忘、单点故障等因素而使数据内容一直置于安全环境下。即使出现安全问题,也能够利用备份文件将数据恢复,对信息系统的数据安全极为适用。所以,对于服务器中的重要文件或文件夹采用专业的第三方备份平台进行有针对性的异机备份。通过该平台,运维人员可以设置对托管平台内的单文件、文件夹进行异机备份,甚至对于数据库以及整个操作系统等进行备份。由于数据备份将占用托管平台的硬件资源、网络带宽等,导致平台对外服务受到一定影响,因此通常在托管平台相对空闲时间开展备份。同时,要有针对性地设置个性化的备份方案,包括时间、频率等内容。这就需要运维人员了解托管平台的服务方式。如学校某个海洋数据分析平台将在每日凌晨对采集到的数据进行持续5~6小时的分析与加工,以便使用人员能够在八点查看到分析结果。故该托管平台的相对空闲时间为日间,在备份方案上采用每日日间方式进行。当然所有备份方案同樣需要运维人员与托管平台管理人员进行测试与演练,以此确保备份方案的有效性,确保备份到的数据可用、可恢复。

存储安全——RAID  虽然磁盘技术飞速发展,单盘容量及其读写速度都有了很大提高,但存储设备的数据安全仍以RAID为主。采用RAID技术的存储,可具备两个关键属性:高可靠性和高可用性。高可靠性即设备发生故障时,在降级状态下依然能够完成数据的存储任务。高可用性即设备发生故障时,能够通过自身的容错恢复能力走出降级状态[5]。RAID技术是保护数据的常用方法。有部分行业专家称,随着存储容量的增加,RAID阵列错误的概率也会增加,市场对RAID技术的需求已经减少,逐步替代它的是擦除编码和固态硬盘等相关技术[6]。尽管如此,大型存储供应商仍然在其存储阵列中支持RAID。日常使用的Raid技术包括RAID 1、RAID 5、RAID 6等。

RAID 1即两个硬盘数据完全相同,当有一块损坏时,另一块硬盘完全可以不受影响单独运作。RAID 5是将奇偶校验信息和相对应的数据分别存储于不同的磁盘上,其中任意N-1块磁盘上都存储有完整数据,也就是说有相当于一块磁盘容量的空间用于存储奇偶校验信息。因此,当RAID 5的一个磁盘发生损坏后,不会影响数据的完整性,从而保证了数据安全。为了提高数据的整体安全,对于存储设备通常采用RAID 1及RAID 5技术相结合的方式,具体为:对于关键服务的系统磁盘,采用RAID 1方式进行;而对于存储数据的磁盘,采用RAID 5方式进行。另外,从平衡容量、速度和重建时间等方面考虑,对于零散型小文件的存储服务器通常采用RAID 1方式,而对于存储视频等大文件场景采用RAID 5方式。

2 环境维护

运行环境  硬件所处的运行环境对服务器运行尤为重要,其中的温湿度指标是服务器能否正常运行的关键。温度偏高时,将会导致硬件元器件运行参数偏离,产生逻辑错误,造成电路工作异常;同时易导致CPU、硬盘的加速老化、失灵,带来无法修复的损害,降低使用寿命。温度偏低时,极易导致水分凝结在元器件上,出现短路或者漏电问题。而湿度的异常也将给硬件带来静电干扰、放电打火等问题,带给信息系统不可估量的危害。核心机房应配有良好的精密空调系统,使运行环境保持高稳定性,夏季温度保持在(22±1)℃,冬季溫度保持在(20±1)℃,相对湿度保持在45%~60%。机房要相对密闭,能够有效减少光线、灰尘的进入。同时,大连地区夏季雷雨天气频繁,核心机房均配有防雷接地系统以确保雷雨天气的安全。上述可靠的硬件条件,保障了大连海洋大学各类托管平台能够处于恒温、恒湿、防尘、防雷等条件的运行环境,满足了硬件设施各类元器件的运行需求,以此实现托管平台的稳定高效运行。

电力供应  保障信息系统的安全稳定运行,电力供应更是至关重要。供电线路故障、事故、雷暴、计划维修等一系列情况,极易导致断电问题的出现。为此,在硬盘冗余、网络冗余的配置下,电源系统也要务必进行冗余设计。大连海洋大学所有托管平台所需相关的硬件设备,包括服务器、存储、光纤交换机等,均要求配置双电源,否则不予办理托管业务。对于电源的接入,运维人员均给予分别接入不同的供电单元上。这样假使一路电源中断,因冗余电源的存在,另一路电源仍正常供电,保障托管平台硬件仍处理正常运行状态中。

同时,各路供电单元均配置在线式UPS系统,相对于离线式来说,一方面,在线式UPS系统能够提供不间断的稳压供电,使信息系统硬件持续获取稳定的电压输入,保护硬件设备免受市电噪声和瞬变的影响;另一方面,当出现输入中断时,在线式UPS能立刻将其存储的电能进行输出供电,保障托管平台硬件所需电力的持续供应。

监控机制  工欲善其事,必先利其器。良好的运维管理始终离不开监控机制的辅助。对于托管平台来说,运维人员虽然不具备平台的管理权限,但是可以通过一定的外部监控手段,实时获取托管平台硬件设施的各项运行参数,如CPU负载、磁盘空间、网络流量等,进而形成一系列的历史数据积累,并通过专用绘图工具形成图表,使数据可视化,便于运维人员直观查看。通过相关的历史数据分析,实现对托管平台运行状态、各项容量的可视分析,为系统优化、运维提供数据参考[7]。

运维人员对于RRDtool都较为熟悉,这是一套开源工具,可以对数据进行保存与绘图。但是它毕竟只是一套工具引擎,要进行模块化的数据管理,就需要借助MRTG和Cacti这类软件。虽然这两款软件的作者是同一个人,但是MRTG有些过时,目前运维人员通常使用Cacti。Cacti是一套基于PHP、MySQL、SNMP及RRDTool开发的网络流量监测工具,其主要功能是通过SNMP协议获取数据,并利用RRDTool工具储存和更新数据,进而生成图表呈现给用户,方便用户查看数据。借助此类有效工具,对各个托管平台的运行状态进行有效监控与记录,并在出现异常时及时发现处理,对于管理相对特殊的托管平台来说是必不可少的。

图1展示的是通过Cacti监控平台记录某个托管平台一年内的进程数量的监控图。从图中可以看出,该托管平台进程数量整体上呈现增长态势,在前一年3月进程数量突破2 000,达到3 000左右,并一直维持在这个区间;且在本年度二月份突破4 000峰值,并可能有保持这个压力的态势。这种情况对于普通网站硬件资源是比较危险的,硬件资源将会不足。运维人员可以根据此项记录尽快提醒托管单位管理人员对服务器资源进行调整和规划,以免出现不必要的宕机及损失。

图2展示的是通过Cacti监控平台记录某个托管平台3—11月间的HOME存储目录磁盘空间的监控图。从图中可以看出,该托管平台HOME目录磁盘空间自8月以来一直呈快速增长态势,且目前10 T的总体空间已经达到近50%。按照这个增长速度,空间容量将会很快饱和。可以根据此项记录,提醒托管单位管理人员对服务器存储资源进行调整和规划。

3 结语

本文介绍了大连海洋大学在数据中心托管服务过程中重点关注也是投入较多精力的关键工作。无论是数据安全、基础环境,还是监控机制,核心思想就是要做到冗余备份、防患于未然,在看似正常运转的时间里,运用专业工具,结合运维经验等,能够及时发现其存在的安全隐患,在不影响业务正常运行的前提下,通过有效方式给予及时解决或消除。但是,网站运维不仅仅是这三个方面,网络安全、网络链路等也都是运维人员关注的重中之重,更需要运维人员与托管单位双方协作配合、各司其职、肩负责任,方能使所有的投入变成有效的作用,使托管平台能够持续平稳地运行下去。

参考文献

[1]康海燕.网络隐私保护与信息安全[M].北京:北京邮电大学出版社,2016:11.

[2]陆爱东.计算机数据库备份与恢复技术的应用策略[J].信息与电脑(理论版),2019(23):118-119.

[3]杨高攀,严鹏飞.企事业单位数据中心运维管理分析与研究[J].电脑知识与技术,2019(21):26-28.

[4]王振宇.企业级数据中心运维管理探讨[J].科技传播,2018(4):148-149,151.

[5]谢屹.浅谈机房基础设施运维保障工作研究[J].通讯世界,2018(4):81-82.

[6]李德伟.基于多维数据的智慧运维监控平台开发及应用[J].电子元器件与信息技术.2018(8):41-44.

[7]王贤亮.谈“互联网+”时代之机房安全运维[J].现代经济信息.2019(23):96.

[8]张俊涛,荣华良.计算机网络服务器日常安全和维护框架实践[J].科技展望,2015(14):236-237.

作者:王光武、孙涛、周纯玉,大连海洋大学信息化工作办公室(116023)。

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!