当前位置:首页 期刊杂志

数据中心数智化冷源群控系统研究与应用

时间:2024-07-28

侯晓雯

(中国移动通信集团内蒙古有限公司,内蒙古 呼和浩特 010000)

0 引 言

随着大数据、5G、云计算等技术的飞速发展,数据需求呈几何级增长,数据中心的数量与日俱增,用电规模也急剧攀升,是典型的高耗能产业[1]。在数据中心的运营成本中,电费占比高达64%,致使数据中心电费压力巨大。同时,在“双碳”战略大环境下,为促进数据中心节能减排,中华人民共和国工业和信息化部、国务院国有资产监督管理委员会等部门密集下发“双碳管控”“绿色发展”等文件,数据中心必须严格贯彻落实,提升能效。

在数据中心非互联网技术(Internet Technology,IT)设备的能耗占比中,超过50%的能耗由制冷系统产生,因此降低制冷能耗一直是数据中心节能降耗关注的焦点。数据中心制冷系统采用冷源群控系统实现集中控制及能耗管理,但数据中心IT设备负载频繁变化和外部环境复杂多变,冷源群控对制冷系统的调节效果十分有限。因此,针对复杂的制冷系统,数据中心亟需找到一种全新的控制算法,以达到整体最优的效果。

本文利用大数据、人工智能(Artificial Intelligence,AI)技术建立数据中心数智化冷源群控系统,基于深度神经网络算法构建能耗预测模型,准确预测不同温度状态、不同IT负载情况下数据中心的能耗情况,利用遗传算法分析出系统各设备的最佳运行状态,并将最优策略下发执行,全面降低数据中心制冷系统能耗,真正将数据中心制冷效能做到极致。

1 数据中心冷源群控系统的现状

数据中心制冷系统是采用冷源群控系统对高压冷水机组、板式换热器、冷冻水泵、冷却水泵以及冷却塔等设备进行集中监控,依据机房内IT负荷需求的冷量和室外温度,通过群控策略及控制算法调节制冷系统内设备的合理运行[2]。数据中心冷源群控系统架构如图1所示。

图1 数据中心冷源群控系统架构

目前,业内各大数据中心冷源群控系统存在采用“群控系统+人工经验”相结合的方式实现制冷系统的控制和调节。然而,数据中心制冷系统控制参数极多,控制逻辑复杂,面对庞大的制冷体系,基于比例、积分和微分(Proportion Integral Differential,PID)算法的冷源群控调节方式已无法满足数据中心的节能需求,主要表现为两个方面。

第一,没有统一的调节规则。数据中心制冷系统控制参数和过程参数非常多,控制和环境参数之间非线性相关,传统基于公式的工程学无法模拟,且内部系统及外部环境复杂,无法定制每种场景的调节规则。此外,各数据中心环境及架构不同,定制的调节模型无法普遍适用。

第二,严重依赖运维工程师经验。由于制冷系统系统的控制多采用“群控系统+人工调节”相结合的方式,对工程师技能要求高,且只能在某一时段内干预,无法实时调节,此外,制冷系统与IT负载缺少精确联动调节,人工调节风险较大,负载及环境变化较大时,若没及时调整将导致数据中心出现高温现象。

针对复杂的制冷系统,数据中心亟需一个智慧的“大脑”,寻求全新的冷源控制算法,构建数智化冷源群控系统,从制冷系统整体性着手,达到最优能效。而大数据、AI则是一个良好的解决方案,基于AI技术,利用深度神经网络找出各类特征数据与能耗的关系,并输出预测的电源使用效率(Power Usage Effectiveness,PUE)值,根据当前气温及IT负载,指导数据中心按照预测模型进行调优控制,完成真正的智能调节和按需供冷,最终实现节能降耗。

2 数据中心数智化冷源群控系统

数据中心数智化冷源群控系统利用人工智能算法和运维经验相结合,提出了一套全新的冷源群控解决方案,利用AI技术找出PUE的优化点,结合室外温湿度及IT负载工况优化制冷系统控制策略,实现数据中心最优能耗。

数据中心冷源系统智能化控制整体业务流程主要包括5个步骤:数据采集、数据治理及关键特征值提取、AI模型训练、最优参数推理以及控制策略下发。其中,数据中心冷源系统智能化控制整体业务流程如图2所示。

图2 数据中心冷源系统智能化控制整体业务流程

3 数据中心数智化冷源群控系统架构

数据中心数智化冷源群控系统架构包括3个部分,即AI能效优化平台、集成平台、和子平台,均采用本地化部署模式。其中,集成平台为数据中心基础设施管理(Data Center Infrastructure Managemen,DCIM)系统,子平台包括冷源群控系统和动环监控系统。数据中心数智化冷源群控系统工作流程如下:AI能效优化平台得出最佳控制策略后,将优化指令下发到DCIM系统,由DCIM最终下发至冷源群控系统和动环监控系统执行。数据中心数智化冷源群控系统架构如图3所示。

图3 数据中心数智化冷源群控系统架构

3.1 数据中心数智化冷源群控采用的关键技术

数智化冷源群控依托AI训练推理平台,分析室外气候、设备热负荷、冷源设备运行状态以及制冷量等影响因素,基于深度神经网络算法建立数据中心能耗预测模型,准确预测不同温度状态下的能耗情况,分析和寻优各类设备最佳运行状态点,提升冷源设备制冷整体能效,形成最优节能运行策略。

3.2 大数据采集&能耗可视

大数据采集是基于数据中心制冷系统的复杂性,需要对供电系统、制冷系统和环境参数等进行采集[3]。通过动环监控、冷源群控系统实时对中心供电、制冷、环境等4 000多个参数测点中的IT负载、空调参数、能耗等数据进行采集。大数据采集技术示意如图4所示。

图4 大数据采集技术示意

同时,数据中心电源和制冷系统实现全链路可视化管控,从“环境-冷源-负载”建立制冷链路的时空关联性,将制冷系统各种参数调优、提取、训练和推理,优化至最佳状态,为能耗分析提供扎实的数据基础。数据中心电源、制冷系统全链路能耗如图5所示。

图5 数据中心电源、制冷系统全链路能耗

3.3 数据治理及关键特征项提取

3.3.1 数据治理

数据治理过程是利用高斯分布对异常数据进行识别和删除,统一所有参数的时间轴,地理位置归一,剔除与能效无关的数据(告警信息、维护信息等),并通过参考数据中心运维经验、冷水机组等设备运行参数补齐空白数据[4]。数据治理技术示意图如6所示。

图6 数据治理技术示意

3.3.2 关键特征项提取

关键特征项提取流程如下:利用治理后的规范数据,进行相关性分析,从海量原始数据中找出“5+14+2”类影响PUE的关键特征因子,包括5类控制参数(冷水机组供水温度、冷冻水供回水温差、冷却塔逼近度等)、14类过程参数(水流量、压差、设备功耗等)、2类环境参数(室外温湿度、IT负载率)。制冷系统关键特征项如图7所示。

图7 制冷系统关键特征项

3.4 AI模型训练

AI模型训练采用深度神经网络,利用机器学习算法找到不同设备、不同系统之间参数的关联关系,同时根据现有的大量传感器数据建立数据中心的能效模型[5]。

所有经过数据治理和关键特征提取的数据被随机分为3份,其中10%的数据用于初步训练,80%的数据用于深度训练,10%的数据用于最终校验。经过训练和校验,得出数据中心PUE模型。

3.4.1 AI模型建立

采用深度神经网络建立输入层、输出层以及多个隐含层,通过深度学习(Deep Learing,DL)改进算法找到室外温度、IT负荷、冷源设备运行参数等数据与PUE的关系,建立数据中心的能耗预测模型。深度神经网络包含5个隐含层,神经网络的基本模型如图8所示。

图8 制冷系统深度神经网络模型

3.4.2 AI模型训练

经过1 000次训练后,均方差损失值稳定下降,无过拟合和欠拟合现象,训练网络正常。制冷系统能耗均方差损失值拟合如图9所示。

图9 制冷系统能耗均方差损失值拟合

机房能耗整体预测准确度在99.3%以上,约97.1%数据点的误差在±2.5%范围内,模型准确度高。制冷系统预测能耗与监测能耗散点图如图10所示。

图10 制冷系统预测能耗均与监测能耗散点图

3.5 推理决策&能效诊断

将预测的PUE模型下发到推理平台,利用推理平台强大的推理和计算能力,用遗传算法对可能的制冷策略进行遍历和模拟,从中推理出PUE最低参数组合。负载/环境参数联动,遗传算法自动寻优如图11所示。

图11 负载/环境参数联动,遗传算法自动寻优

利用输入的能效模型和实时采集的运行数据,通过参数遍历组合、业务规则保障、制冷能耗计算及最优策略选择4个步骤,最终找出最佳的运行策略[6]。在线流程编排实现数据中心能效寻优如图12所示。

图12 数据中心能效寻优最佳运行策略

4 数据中心数智化冷源群控系统应用

中国移动通信集团内蒙古有限公司在呼和浩特市的数据中心某机楼于2021年4月20日开始部署数智化冷源群控系统,2021年11月12日基本完成系统部署与调测。目前,采用手动下发调优参数模式,计划应用1年且持续稳定后,数智化冷源群控应用期间,采用自动下发调优参数模式。制冷系统运行状况良好,调优参数运行安全稳定。数据中心AI调优过程记录如表1所示。

表1 数据中心AI调优过程记录

通过现场近6个月AI调优,基于IT稳定,波动小于5%前提下,手动下发调优参数,某机房楼2022年4月份AI调优过程具体概况表2所示。调优前后总能耗对比曲线如图13所示,调优前后制冷能耗对比曲线如图14所示。调优前后PUE对比曲线如图15所示,调优前后各机房楼PUE变化如图16所示。

图13 调优前后总能耗对比曲线

图14 调优前后制冷能耗对比曲线

图15 调优前后PUE对比曲线

表2 同工况下制冷能耗和环境变化对比分析

(1)据4月份数据显示,4月份室外湿球温度升高的情况下,PUE下降0.029。

(2)数据中心PUE值由1.340优化到1.310(见图16),PUE下降0.03;数据中心制冷负载系数(Cooling Load Factor,CLF)值由0.190优化到0.140,CLF下降0.050。各楼具体情况如表3所示。

图16 调优前后各机房楼PUE变化

表3 调优前后数据中心各机房楼PUE对比分析

(3)基于当前手动下发调优结果,当系统完全自动调优后,预计数据中心全年PUE具有0.05~0.08的调优空间。

5 结 论

数智化冷源群控在不改变数据中心硬件的基础上,基于AI节能算法,充分利用耗能设备和制冷系统的运行数据,建立能耗模型,通过数据驱动技术与模型驱动技术的完美结合,实现同等条件下PUE降低5%~8%。让数据中心从“制冷”变为“智冷”,真正把数据中心制冷做到极致,实现数据中心能源的高效利用。此外,该系统解决了数据中心降低制冷能耗的难点问题,应用效果良好,具有普适性,推动数据中心又向绿色、节能迈进了一步。

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!