当前位置:首页 期刊杂志

北京气候中心CMIP6数据共享平台及应用

时间:2024-06-19

马 强 颜京辉 魏 敏* 辛晓歌 张 莉 张 芳 吴统文

1)(国家气象信息中心, 北京 100081) 2)(清华大学计算机科学与技术系, 北京 100084) 3)(中国气象局地球系统数值预报中心, 北京 100081) 4)(中国气象科学研究院灾害天气国家重点实验室, 北京 100081)

引 言

20世纪90年代,世界气候研究计划(World Climate Rearch Programme,WCRP)提出并组织了耦合模式比较计划(Coupled Model Intercomparison Project,CMIP),该计划通过设计气候模式试验,制定试验标准,收集、共享来自世界不同国家模式工作组的气候模式试验数据,开展多模式相互比较和评估工作。参与该计划的试验数据被广泛应用于气候变化机理研究与未来气候变化预估等相关领域,为政府间气候变化专门委员会(Intergovernmental Panel on Climate Change,IPCC)定期发布评估报告提供技术支撑,也为气候模式发展提供重要平台[1]。WCRP先后组织了6次国际耦合模式比较计划,目前正在进行的是CMIP6[2-3]。CMIP6科学试验设计包括2个核心试验和23个模式比较子计划,试验种类较CMIP5明显增加。参加比较计划的气候模式由早期的海-气耦合模式发展到对大气、陆面、海洋及海冰等多圈层进行模拟的耦合模式,以及包含碳循环过程的地球系统模式,模式分辨率越来越精细[4]。多种因素综合导致试验数据量激增,从CMIP1约1 GB,到CMIP2超过500 GB,CMIP3超过35 TB,CMIP5超过3.5 PB,CMIP6产生的数据量更加巨大。如何在全球范围广泛、高效地共享这些海量试验数据,满足气候变化及相关领域研究的需求,成为亟需解决的关键技术问题。

2011年美国在原有地球系统网格(Earth System Grid,ESG)项目基础上,由美国能源部(Department of Energy, DOE)、美国航空航天局(National Aeronautics and Space Administration,NASA)、美国国家海洋和大气管理局(National Oceanic and Atmospheric Administration,NOAA)等多家单位共同资助,多个国家共同参与建立了地球系统网格联盟(Earth System Grid Federation,ESGF),自CMIP5开始负责模式试验数据的管理与共享[5]。ESGF是由多个分布式节点组成的全球系统,节点分为数据节点、身份认证节点、索引节点和计算节点4种类型,参加CMIP模式工作组可根据需要进行部署。数据共享平台的建设成为参与CMIP的重要环节。

作为国家级业务中心,北京气候中心(BCC)参加了CMIP5和CMIP6两个阶段的比较计划[6-7]。为了满足数据共享应用需求,BCC建设试验数据共享平台,部署BCC ESGF数据节点。

1 数据特征

BCC选用近年研发的3个不同版本模式参加CMIP6,包括地球系统模式BCC-ESM1.0、中等分辨率气候系统模式BCC-CSM2-MR和高分辨率气候系统模式BCC-CSM2-HR,模式信息见表1。

表1 BCC参加CMIP6试验的模式版本Table 1 BCC model versions participated in CMIP6

BCC-ESM1.0与BCC-CSM2-MR完成了气候诊断、评估和描述试验(Diagnostic,Evaluation and Characterization of Klima experiments,DECK)与历史气候模拟试验(Historical)[2]两个核心试验。在此基础上,BCC-ESM1.0开展了气溶胶和化学模式比较计划(Aerosols and Chemistry Model Intercomparison Project,AerChemMIP)[11],BCC-CSM2-HR参与了高分辨率模式比较计划(High-Resolution Model Intercomparison Project,HighResMIP)[12],BCC-CSM2-MR完成了包括年代际气候预测计划(Decadal Climate Prediction Project,DCPP)[13-14]在内的其他8个子计划。

BCC模式开展核心试验共需完成超过2500年的积分,计算输出近2000个模式要素,完成各子计划需进行近万年积分,计算输出超过6000个模式要素。按照CMIP6要求,模式数据均采用标准NetCDF格式存储,水平分辨率与模式保持一致,垂直分辨率按照试验要求进行插值,时间分辨率根据试验要求不同,分为逐小时、3 h、日及月等。以应用最多的BCC-CSM2-MR模式为例,该模式为大气、陆面、海洋和海冰多圈层耦合模式,仅大气模式单时次、单要素场格点就包含约235万个,多圈层格点之和则达到约583万个。历史气候模拟试验(Historical)分为3个集合样本,每个样本积分165年,分别按照3 h,6 h,日及月不同频率输出近200个要素,数据量约为7.4 TB。据测算BCC CMIP6试验的数据量共计190 TB。由此可知试验具有配置复杂、模式分辨率高、要素种类多、数据输出频次多样及作业积分时间长等特点。

由于参加比较计划的模式来自不同国家模式工作组,模式数据特征各不相同,为便于进行统一管理与规范应用,需对模式原始输出数据进行加工处理,采用通用标准格式存储。数据管理与存储处理逻辑非常复杂,工作量巨大,数据共享工作极具挑战性。

2 平台架构

为满足BCC试验数据存储及共享服务需求,从数据规模,服务效率、访问安全性等多方面考虑,共享平台采用多层体系架构,采用组件化设计,保障系统灵活的可扩展性和可维护性,采用数据库与文件系统结合,进行高效的数据存储管理和统一的数据支撑服务,采用http,Globus等通信协议及WebService等技术,确保数据传输和共享服务的准确与高效。平台系统总体框架由系统层、数据层、服务层和用户层4部分组成(如图1所示)。

系统层包括硬件和软件两部分,硬件主要包括高性能专用服务器和1套具有高速读写访问能力的可扩展分布式存储设备。存储系统采用全对称分布式架构,可横向平滑扩展文件存储,包含7个存储节点,提供约900 TB可用存储容量。平台采用的分布式数据存储系统在可扩展性、并发性能等方面克服了传统本地存储扩容步骤复杂、性能受单一控制器能力限制的缺陷。同时,为服务器配置轻量级备份虚拟机,以提升持续服务能力。软件包括支撑数据处理和展示的Fortran,Python,NCL等程序语言和工具软件,支持通过高级程序语言调用函数库对数据处理,支持在命令行实现对数据的集合操作及绘图等功能[15]。

数据层存储平台所涉及的所有数据,包括模式原始计算数据、共享的数据产品及产品元数据等。服务层指运行在服务器的各种服务,包括Web服务、OPeNDAP服务、Globus Gridftp服务、OpenID身份认证服务等。Web服务提供互联网访问服务,OPeNDAP服务通过http通信协议实现数据访问请求与响应,基于URL链接和Web服务器即可实现对数据的分发与共享,Globus Gridftp服务为共享数据的下载提供高性能、安全可靠的数据传输,OpenID服务可为访问平台的用户提供便捷的单点登录功能。用户层主要为用户提供平台交互访问客户端,为用户提供多种条件组合查询界面、元数据展示、wget和Globus等多种数据下载服务与数据说明文档等。

平台部署在中国气象局互联网隔离区(demilitarized zone,DMZ),既可实现互联网的公开访问,又可获得加强的网络安全防护[16]。平台通过中国科技网(出口带宽为1.35 Gbps)对外部用户提供服务,并实现与其他多个国家或组织的ESGF节点高速互联通信,气象局内网用户可通过万兆以太网访问。

3 平台实现

3.1 建设流程

平台建设包括数据收集、数据处理、数据存储发布及数据服务几个关键部分(图2),数据安全工作贯穿全流程。

首先对BCC模式计划开展的试验进行分析,预估可能产生的数据量及后续工作任务,确定软硬件性能及功能需求[17]。硬件建设主要包括服务器及配套存储设施选型、采购及安装测试等。在此基础上,对相应软件环境进行部署,主要包括系统软件、开发运行环境、应用软件的安装配置。建设过程中严格按照安全规范执行,在平台正式上线前通过系统安全基线检查、软件漏洞扫描等安全检测。

数据收集模块实现自动化传输流程,采用加密传输策略,将在数据生产平台-高性能计算系统产生的模式试验数据收集到共享平台。数据处理模块对模式原始输出数据进行检查、处理并规范化数据格式[18]。数据存储发布模块确定试验数据在线存储规则,建立目录结构及访问权限,完成数据发布。数据共享服务门户提供易用高效的数据检索界面,用户经过身份认证后,可通过多种方式批量下载检索结果。

3.2 数据质量控制及规范化

模式试验在高性能计算系统开展,模式程序并行规模大,运行时间长,计算过程可能受到内存争用、通信抖动或文件读写干扰等多方面因素影响,增加模式计算结果的不稳定性。确保每个试验数据的完整性和可用性是数据处理工作的前提,需要在每个试验完成后,对生成的试验数据文件数量、文件大小及是否存在计算异常等情况进行严格检查,对存在问题的试验,需要重新计算。针对各试验配置特点,结合模式运行情况,设计并实现数据检查流程,提高自动化水平,减少人为干预,提升问题筛查精准度,从信息技术角度保障数据质量[19]。

模式模拟效果合理性检查也是必不可少的重要环节。BCC CMIP6模式均为多圈层耦合模式,每个试验完成后需对大气、海洋等主要分量模式关键要素模拟结果从全球、典型区域等空间属性,多年平均、季节平均等时间属性的物理意义合理性进行检查[20]。如大气分量主要考查地表温度、降水、风场等要素在全球及东亚等不同区域气候态及随时间的演变规律。海洋分量主要考虑海表及中上层海温基本气候态,全球、赤道太平洋等关键区域海表温度不同时间尺度变化等。检查方法包括空间分布合理性检查、时间序列合理性检查、气候态检查、极值统计及误差分析等。

参加CMIP的模式来自世界不同国家模式工作组,模式原始输出数据在数据组织、数据格式及元数据信息等方面存在较大差异,为减少对不同模式同一试验数据预处理的工作量,CMIP给出较为严格的数据规范及明确的数据属性要求。因此,在严格的技术框架内结合BCC CMIP6数据特征与共享平台实际情况,实现数据规范化是十分关键的技术问题。模式输出结果采用气候模式输出重写(climate model output rewriter,CMOR)软件[21]进行格式标准化,确保生成符合气候和预测元数据公约的NetCDF文件。经过CMOR软件处理,实现将同一试验相同要素的多个时间记录存储在1个或一系列文件中,将模式垂直层输出的要素插值到标准等压面,依据给定的经纬度排列顺序对数据进行排序,对要素量纲进行转换等。数据属性主要包含模式工作组提供的模式配置信息、CMIP6各模式及其组织机构信息和模式要素信息等内容,以JSON格式存储为MIP表文件[22],与模式原始输出数据文件共同作为CMOR软件的输入和输出数据的元数据。CMOR输出的数据采用CMIP的统一规则命名。

数据处理流程如图3所示。

3.3 数据发布与服务

CMIP6试验数据具有数据量大、数据文件离散但命名规则统一及元数据多维等特征[23]。平台采用专题实时环境数据分发系统(thematic real-time environmental distributed data services,THRE-DDS)提供数据服务(THREDDS data server,TDS),支持http,Girdftp,OPeNDAP和OGC WMS/WCS等多种数据访问接口。THREDDS是一个面向服务体系结构(service oriented architecture,SOA)的数据服务系统,实现试验数据组织、元数据管理和数据发布的功能。THREDDS提取数据文件的元数据信息,用于支撑数据访问接口以Web服务形式提供用户访问。其中http,Girdftp提供完整文件下载功能,OPeNDAP支持数据空间、时间、要素等范围子集的选取功能,OGC WMS/WCS提供GIS访问接口。

目录结构设计对于THREDDS非常重要,CMIP6试验数据存储目录采用具有自描述信息的层级管理结构,实现不同试验不同要素数据分级分类存储。在试验数据发布过程中,THREDDS遍历扫描所选数据集,自动分析提取要素变量、时空分辨率等多种元数据信息,保持试验数据及元数据的一致性和准确性[24]。将元数据存储到本地PostgreSQL数据库相应数据表中,生成对应的数据集元数据描述文件catalog.xml,并纳入TDS提供服务,用户即可通过URL方式对多层次的目录进行访问,将数据下载至本地或者通过客户端直接读取访问所需要的数据。同时,元数据信息发布到ESGF索引节点,实现CMIP6试验数据统一检索,如图4所示。

试验数据通过ESGF索引节点以Web门户方式提供共享服务,主要包含CMIP6模式及其试验数据的详细描述、数据检索及获取等服务。数据检索功能支持试验类型、模式信息、组织机构、数据要素、集合样本等多种条件组合检索,根据需求可从结果中进一步检索所需时间序列的数据子集,为用户使用提供极大的便利。平台收到数据节点响应索引节点的请求,为用户提供数据浏览以及基于http,Globus,OPeNDAP等协议的数据获取服务。平台依据数据检索结果为用户自动生成Bash或Python格式脚本,用户登录认证通过后即可实现批量数据文件下载。

3.4 数据安全

平台面向世界各国ESGF用户,通过互联网对外提供数据共享服务,保障数据安全极其重要。

物理层面上,通过增加物理介质的副本存储等方式保护存储在分布式存储系统上的试验数据的物理安全,采用轻量级备份虚拟机保障服务的连续性,确保数据不丢失、服务不中断。同时,BCC CMIP6数据同步到澳大利亚、美国和英国等其他国家的ESGF数据节点,实现数据异地备份,提升共享服务能力,用户可选择最优站点进行数据下载。

系统层面上,系统及应用软件参照ESGF软件安全规范部署,并采用密码增强、系统加固、访问控制、日志审计等多种技术方法对平台进行基础的系统安全防护。

网络层面上,平台部署在互联网DMZ,纳入中国气象局国家级的整体网络安全防护体系,通过防火墙、抗DDOS、入侵检测、入侵防御、Web应用防护、安全威胁和态势感知等一系列安全防护手段保障网络安全。

对于模式试验数据自身的安全,从数据处理、收集、发布、共享服务等各个环节采取安全管控措施,避免数据的非授权访问,保护数据不被篡改和伪造。在数据处理过程中,利用高性能计算机安全管理体系[25],针对数据加工处理过程进行严格授权﹐仅允许特定用户进行相关操作,控制输入、输出和中间结果数据文件的访问权限,确保数据来源可信。在数据收集过程中,采用SFTP加密协议防止用户名、口令等敏感信息泄露, 确保数据不被非法访问,并通过校验机制确保数据的完整性。

数据发布前,BCC需向ESGF内部CA(certification authority)证书颁发机构申请认证审查,获取并在BCC数据节点安装其签署的主机证书,获得数据发布授权。主机证书符合RFC3280定义的X.509规范,使用4096位密钥,用于数据节点管理程序、数据发布程序等客户端应用的安全认证。发布过程中对外提供检索服务的元数据信息与实际的模式数据文件分别进行存储管理,并结合系统层和应用层的访问控制设置访问权限。发布的元数据存储在数据库中,并同步发布到索引节点,模式数据文件存储在本地安全可靠的分布式存储系统上[26]。

平台针对发布后的数据共享服务进行授权管理,仅允许通过认证的用户进行批量数据访问和下载操作。用户通过浏览器检索访问BCC CMIP6数据时,需要通过OpenID(open identification)进行身份认证。利用去中心化的OpenID用户身份认证协议,用户只需在ESGF的某一个身份认证节点注册获取OpenID帐号,就可以凭此帐号登录并获取数据,在加强数据应用安全的同时兼顾用户便捷访问的需求。

4 平台应用

4.1 模式产品

BCC CMIP6数据共享平台自2017年开始建设,2018年正式开始发布BCC CMIP6数据,截至2021年共计发布数据190 TB,实现BCC CMIP6全部数据共享。模式试验数据包括DECK和Historical 2个核心试验,以及ScenarioMIP,C4MIP 等10个子计划,共计50多个试验,输出模拟结果包括约8000个要素,涵盖了对全球开展的中等分辨率、高分辨率多圈层模拟及大气化学模拟数据,各试验集合样本量和模拟结果要素数量有所差异,如表2所示。

表2 BCC CMIP6数据Table 2 BCC CMIP6 data

续表2

模式试验大部分利用耦合模式完成,试验输出要素分别由大气、陆面、海洋及海冰多个圈层的分量模式生成,试验数据集内容丰富,要素种类多,时间序列长,包含地球表面及大气层多种科学数据,对地球系统科学研究具有重要价值。数据均采用国际通用标准NetCDF格式存储,每个试验数据集设置国际通用DOI(数字对象唯一标识符),有利于数据长期保存和有效管理,同时也体现数据权威性,对数据提供者和制作者知识产权进行有效保护。为便于推广使用,对每个试验数据集提供说明文档,以BCC-CSM2-MR模式完成的历史气候模拟试验数据为例,具体信息如表3所示。

表3 BCC-CSM2-MR模式历史气候模拟试验数据Table 3 Historical experiment data of BCC-CSM2-MR

4.2 应用成效

BCC CMIP6数据共享平台投入运行以来,两次存储容量扩充均未中断服务,同步提升整体吞吐和并发能力,有力支撑平台的存储发布和服务,已为来自亚洲、欧洲及美洲等多个国家和地区的用户提供数据服务,取得显著成效。以2022年上半年为例,中国、韩国、新加坡等亚洲国家数据下载量达到32.37 TB,位居各大洲之首,美国、加拿大等北美洲国家数据下载量约为9.70 TB,位居第二,英国、挪威、西班牙等欧洲国家数据下载量约为7.63 TB,BCC CMIP6数据共享平台下载数据量共计50.97 TB,各大洲访问共享平台情况如图5所示。BCC CMIP6数据共享平台的稳定运行为全球科研工作者提供获取BCC试验数据的方便快捷途径与方法,降低获取试验数据的难度与成本,成为推动我国气候模式国际应用的有力技术手段。

BCC CMIP6数据共享平台为国内外气候变化及相关领域的研究提供数据支撑,不同国家科研人员利用平台获得的试验数据开展科学研究工作,在气候变化模拟与预估[34]、全球变暖与人类活动[35]及模式评估改进[36]等领域取得成果。2020年以来,国际公开发表的气候变化相关领域研究引用BCC CMIP6数据60余次(不完全统计),在参与CMIP6的近200个模式中位居前列[37]。2021年8月IPCC正式发布IPCC第6次评估报告第1工作组报告,该报告的多个章节引用BCC模式多个试验数据集[38],主要涉及人类活动对气候系统的影响,全球碳和其他生物地球化学循环与反馈及地球的能量收支、气候反馈和气候敏感性等方面科学研究。

我国科学家也利用平台共享数据开展气候变化研究工作,如基于BCC-CSM2-MR模式历史气候模拟试验与情景模式比较计划等数据开展西南暴雨洪涝灾害风险预估[39]、青藏高原夏季水汽长期变化趋势分析[40]与黄河流域生态径流影响预估[41]等研究工作,有助于揭示我国主要区域及典型气候事件的变化规律,推动气候变化与水资源、生态安全等领域关系研究,促进我国地球系统模式的评估与改进。

5 小 结

分析表明:

1) 基于BCC CMIP6数据特征分析,实现完整性检查与标准化处理。采用分布式存储架构, 设计并实现分层级的数据共享平台,基于专题实时环境数据分发系统提供数据服务,实现存储管理和共享发布,并在系统、应用及网络等方面采取措施保障数据安全。BCC CMIP6数据共享平台为我国国家级业务中心参与国际CMIP6比较计划提供了基础技术支撑。

2) BCC CMIP6数据共享平台为国内外用户提供持续稳定的数据共享服务,BCC CMIP6数据应用于气候变化模拟与预估、全球变暖与人类活动、地球系统模式评估与改进等研究领域,支撑国内外多项科研成果,多个数据集被IPCC第6次评估报告引用,有效提升我国气候模式的国际影响力,推动气候变化研究工作的开展。

未来气候模式将向更高分辨率、更高输出频次、更多集合成员等方向发展,CMIP试验设计将更为复杂、灵活,试验数据量将迅速增长,这些变化对共享平台软硬件的高需求也将更突显。今后将对CMIP提供持续数据服务,并从基础设施及技术集约化考虑,将扩展平台功能,为其他相关模式比较计划提供统一支撑。

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!