当前位置:首页 期刊杂志

高性能计算机在华南气象行业的应用研究

时间:2024-05-04

张恩红,尹海燕

(广东省气象探测数据中心,广东 广州 510641)

0 引 言

高性能计算机自从20世纪70年代问世以来,国内外的气象行业都是高性能计算机应用大户,气象业务的需求也促进了高性能计算机的迅速发展[1-5]。随着高性能技术的发展,气象行业建设的高性能计算机系统性能也逐步发展,从20世纪90年代的银河II、神威I到神威4000、IBMP460,再到曙光系列[6-10],计算能力呈指数级增加,为气象行业的数值预报发展提供充分的保障。除此之外,还使用了大量的社会上高性能计算资源,如天河I、天河II等。气象行业数值预报的发展离不开高性能计算机,20世纪初挪威科学家Bjecknes[1]教授提出数值天气预报理论思想,直到二次世界大战出现了大型计算机后,才真正成功地制作出了世界第一张成功的数值天气预报图,花了几十年的时间,最终还是依赖于计算机[11]。自此以后,随着高性能计算机的发展,气象数值预报也得到飞速的发展,全世界的气象行业都在建设高性能计算机系统,NCAR、ECWMF、CMA、MET office等都建设有超过5000 TFLOPS的计算能力的高性能计算机系统,为各国数据预报业务的计算提供了大量的计算资源。随着华南地区社会经济的发展、一带一路的规划以及粤港澳大湾区的建设,华南区域气象中心需要提供大量的数值预报产品,对高性能计算机的需求量是巨大的。如何提供这么大数量的计算资源以及相应的作业调度管理是管理人员和技术人员面临的重大挑战。很多学者和技术人员研究了高性能计算机与气象业务应用的结合技术,有的学者研究了高性能计算系统设计的合理性[12-15];有的技术人员分析了高性能计算系统配置管理的高效性[16-18]。该文着重研究如何高效和充分使用计算机资源,以便发挥高性能计算机的最大效能。

1 对高性能计算机需求背景

华南区域中心具有完全自主数值预报产品研发的能力,包括模式的算法设计、功能实现、性能测试、产品加工等全流程业务。随着社会的发展,国家推出一路一带政策、粤港澳大湾区的建设,对数值预报的需求也成倍增长。从最初的华南区域中尺度(18 km)和南海台风模式发展到如今二十几个数值模式的计算,包括华南区域中尺度3 km、1 km,一带一路模式、粤港澳模式等。对高性能计算能力从几十个节点到几百个节点的发展。纯业务的需求(不包括科研的需求,科研的需要一般是业务的3倍以上)不同时段对计算资源的需求如表1所示。

表1 业务账号对计算机节点和模式运行时次的需求

续表1

2 系统设计

2.1 基础设计

华南气象区域中心使用的高性能计算机系统是一套IBM Flex P460高性能计算机集群子系统,该系统主要由P460服务器(Power7处理器,芯片:8 Cores,3.55 GHz,8 Floating Point/Cycle,227.2GFlops)组成,计算节点数量为427个,总理论峰值达到391.6 TFlops,物理存储容量超过700 TB,全系统共计有CPU核数为13 664个,内存总量58 TB。采用集群配置的模式来管理,集群系统采用冗余方式进行设计,充分保证集群的高可用性和可靠性。高性能计算机系统包括计算节点、存储、登录节点、管理节点、管理网络、Infiniband网络。本系统之外的系统通过万兆光纤提供数据的共享服务。拓扑结构如图1所示。

图1 高性能计算机网络与数据共享拓扑示意图

2.2 作业调度管理设计

为了尽可能满足业务和科研的需求,同时发挥计算资源的最大效能,根据业务的性质和对需求的迫切性,系统将所有用户分为业务账号、重点科研账号和普通科研账号,并且从硬件上也划分出相应的区间,即计算节点按需求进行相应分组,同时,给不同用户组赋予不同的优先级,业务账号高于重点科研账号,重点科研账号高于普通科研账号。业务账号和普通科研账号可以相互共享计算资源,优先使用本区的资源。业务区资源不够用允许抢占普通科研区的资源;业务区的资源闲置,则可以共享给普通科研使用;业务账号的资源在空闲时可以共享给重点科研账号使用,但是重点科研账号的资源不允许其他账号抢占,以确保重点科研资源的最低需求。用户及计算节点资源划分如图2所示。

图2 高性能计算机账号分类及节点配置

在loadlevel的配置部分代码如下所示:

# just for special user 195 nodes include 13 largmem nodes

mgroup_1: {

type=machine_group

schedd_runs_here=false

startd_runs_here=true

MAX_STARTERS=32

#2019/04/12: by zhang enhong

# Add island and reallocate machines for the group

machine_list=gza[01-06]n[01-28], gza15n[06-16],gza16n[06-07], gza15n[17-28]

class=special(32) normal_02(32) normal_01(32)

}

#just for normal_01 and special user 112 nodes

mgroup_21: {

type=machine_group

schedd_runs_here=false

startd_runs_here=true

MAX_STARTERS=32

#2019/04/12: by zhang enhong

# Add island and reallocate machines for the group

machine_list=gza[07-10]n[01-28]

class= normal_01(32) special(32)

}

#just for normal_02 user 112 nodes

mgroup_22: {

type=machine_group

schedd_runs_here=false

startd_runs_here=true

MAX_STARTERS=32

#2019/04/12: by zhang enhong

# Add island and reallocate machines for the group

machine_list=gza[11-14]n[01-28]

class= normal_02(32)

}

2.3 存储资源共享设计

高性能计算机除了计算资源需要合理调配,存储资源同样需要合理规划和使用。根据业务的特性可知,天气预报中使用的数值预报模式计算都需要大量初始场的数据和观测数据,而且很多模式都需要共同的观测数据和初始场资料,但是通过不同的业务账号运行这些模式。通过需求的调研和业务调整,采用存储独占与共享的模式,即给每一账号分配一个小的存储空间,用户保存私有的数据和本地化的程序,再提供大的存储空间供各个用户共享使用,在此空间中可以存放共同需要的数据,比如:基础观测数据和初始场资料。因此,存储的使用率和数据共享速度都大大提高,也大大降低了对网络的带宽需求。从图3的左边模型可以看到每个用户的存储都是独立大存储,从图3右边模型可以看到每个用户除了一个独立的小存储,还有个共享巨大存储。

图3 用户存储分配与共享变化对比

3 业务效果

华南区域中心的高性能计算机的用户主要包括业务用户和科研用户,业务用户10个,科研用户70多个,其中40多个有效用户。日常在线数值预报产品21个,日输出数值预报产品300多G,生成十几万个时次的产品;日常科研用户在线作业20多个,每日科研产品超过1 000 G(不提供数据服务,仅作为科研分析使用)。

从图4可以看出,业务资源的使用是有阶段性的。对节点的需求量,不同时段对节点需求量是不同的,最少的时次只需要48个,最多时次达到228个。因此,业务区节点有时候是空闲的,可以共享给科研使用,有时候是不足的,需要从科研区抢占一部分资源,这样既能满足业务的需求,同时也可以给科研用户提供计算节点使用的机会,即科研用户可以在业务闲时提交作业,并且共享业务区的计算节点资源,如UTC时间9-12时。

图4 业务账号计算节点需求不同时次的变化曲线

从表2可以看出,存储的总需求量少了100 T,只需要旧方案的60%,数据传输总量减少55 T,只占旧方案的45%。可见新方案对高性能计算机系统的性能提升是显著的,大大提高了存储的使用率和网络数据传输的效率,同时也缓解了网络带宽的压力。

表2 新旧方案存储使用对比

从图4可以看出,业务账号在大部分时次需求的计算节点是低于195个,有三个时次计算节点是不能满足的。因此,在空闲时段,可以把部分节点共享出来给其他用户使用,在计算资源不足时,可以从普通科研区抢占部分资源以达到业务需求。从表3可以看出,业务账号可使用节点达到307个,可用率提高到157%,显然是满足当前的业务需求的;重点科研和普通科研账号业务都可以使用上限节点达到307个,可用率提高到274%,科研账号避开业务繁忙期,可以使用充分展开科研计算。

表3 新旧方案计算节点使用对比

4 结束语

华南区域中心的高性能计算机系统给华南区域气象中心的数值预报提供充分的计算资源,为华南区域天气预报的计算提供了重要保障。该文简单阐述了华南区域中心的高性能计算的基本情况,重点分析了如何优化高性能计算节点的应用规划和作业调度管理,以便提高计算节点的使用率,提升用户的作业完成的及时性、有效性;如何优化存储资源的分配方法,以便提高存储资源的使用率,减少数据的无效传输,降低网络的负荷。从使用效率来看,当前的方案成效是显著的,不同用户类型的计算节点可用率提高157%至274%;节约了40%的存储空间,减少了55%的数据传输。

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!