时间:2024-06-19
郑 倩 高 猛
1)(中国科学院烟台海岸带研究所海岸带环境过程与生态修复重点实验室, 烟台 264003) 2)(中国科学院大学资源与环境学院, 北京 100049) 3)(烟台大学数学与信息科学学院, 烟台 264003)
热带气旋是一种发生在热带洋面上具有灾害性的天气系统,往往带来狂风、特大暴雨和风暴潮等灾害[1-4],严重威胁社会经济及生命财产安全[5-7]。热带气旋生成频次和位置预报是热带气旋业务预报的关键问题,以数值模型预报为主[8-10],但存在2周的可预报性上限[11-12],在长期预测方面存在挑战。统计预报作为客观预报,可以从海量观测资料挖掘海上气象资料的潜在价值,超越数值预报极限[13],解决热带气旋预报瓶颈[14-16]。
经验统计模型是一种精度较高的统计预测模型,使用参数化模型刻画关键参数的分布特征[17-20],但不适用于模拟气候变化下气旋活动的趋势性和周期性[21]。热带气旋活动深受海气环境变量和低频信号的影响。西北太平洋热带气旋年生成频次呈周期振荡特征[22-23],拉尼娜年增加,厄尔尼诺年减少,生成位置[24-25]在拉尼娜年向西北移,厄尔尼诺年夏秋季向东南移。这些环境变量均表现出显著且复杂的非线性变化,难以用线性回归模型预测。一些基于统计理论的非线性学习算法如机器学习、神经网络等被用于整个海域[26]、网格[27-29]的回归模型预测热带气旋年频次。Wijnands等[30]和Richman等[31]使用和改进支持向量机,减少热带气旋季节性预测误差。Liu等[32]和海滢[33]分别建立小波神经网络模型和人工神经网络模型预测热带气旋频次。Tan等[26]建立基于Lasso算法的随机森林回归模型预测流程,模型结构简单,效果可靠。另外,由于整个海域的历史样本更多,其频次比各网格之和更加准确,基于全区域的热带气旋频次确定热带事件位置[34]更受欢迎。Yonekura等[35]建立全域和局部的泊松回归模型模拟热带气旋频次和位置,考虑ENSO对热带气旋生成的作用并模拟可能的登陆行为。
本文旨在关注西北太平洋热力条件、动力条件及大气海洋低频振荡模式对热带气旋生成频次和位置的作用,采用Tan等[26]预测流程确定整个西北太平洋海域的热带气旋频次,Yonekura等[35]局部泊松回归模型预测热带气旋生成位置概率,在全区域频次控制下基于生成位置概率采用蒙特卡洛随机抽样热带气旋事件位置。为了减少变量冗余,本工作引入机器学习模型,产生可靠预测结果,为热带气旋危险性分析提供模型支撑。
①热带气旋资料:1979年1月—2020年12月全球热带气旋最佳路径资料(International Best Track Archive for Climate Stewardship,IBTrACS),选取西北太平洋强度达到热带风暴状态的热带气旋,采用热带气旋的第1条记录作为热带气旋生成点,删除所有陆地或岛屿生成的热带气旋记录。
②大气资料: 1979年1月—2020年12月美国国家环境预报中心(National Centers for Environmental Prediction)提供的分辨率为2.5°×2.5°的月平均再分析资料集。该资料提供海平面气压及17个垂直层的湿度场、风场、比湿等。
③海温资料: 1978年12月—2020年11月英国气象局Hadley资料中心提供的分辨率为1°×1°的月平均海表温度资料。
1.2.1 随机森林
随机森林[36]是一种常用的机器学习算法,通过集成多棵决策树提高预测性能。随机森林回归模型是由多个回归树{h(X,θk)}组成的回归器,其中θk是独立同分布的随机变量,输入变量X的最终回归预测值取所有回归树预测值的平均。其核心思想是使用自助聚集重采样方法在初始资料集中经过有放回抽样随机提取多个样本[37],资料集的不同子样本匹配多个深度决策树。在构建树的过程中进行节点分割,使用均方根误差作为评估树节点分裂有效性的标准,输出多个深度决策树预测结果平均值作为最终预测结果[38-39]。随机森林回归模型有两个重要参数设置,分别是决策树数量和决策树分裂节点。研究结合随机搜索、网格搜索两种调参方法确定最优超参数。
1.2.2 泊松回归
泊松概率分布是对计数数据建模最常用的离散分布。泊松回归模型是广义线性模型的一种,其响应变量服从泊松分布。模型可以表示为
lnλ=β0+β1x1+…+βpxp。
(1)
式(1)中,λ为因变量,x1,x2,…,xp为自变量;β1,β2,…,βp为回归系数。
2.1.1 影响因子
热带气旋年生成频次主要与大尺度环境变量场有关。首先,基于影响热带气旋生成活动的动力及热力条件,确定组成模型的预测因子。计算每个格点1979—2020年前冬(12月—次年2月)、春季(3—5月)、夏秋季(6—11月)的全球海表温度异常、夏秋季西北太平洋500 hPa高度场异常、夏秋季西北太平洋600 hPa相对湿度异常、夏秋季西北太平洋850 hPa相对涡度异常和夏秋季西北太平洋850 hPa 与250 hPa纬向风垂直切变异常与热带气旋年生成频次的Pearson相关系数(图1~图2)。根据相关系数及显著性,定义14个(X1~X14)热带气旋频次的预测因子(表1)。
表1 预测因子Table 1 Selected predictors
2.1.2 随机森林回归模型
采用Tan等[26]基于Lasso-随机森林预测流程开展西北太平洋热带气旋年生成频次预测,并验证模型适用性。将样本资料集划分为训练集(1979—2015年)和测试集(2016—2020年)。基于训练集优化超参数,训练模型参数,当决策树数量为30,决策树分裂节点为2时,随机森林评估性能的准确度为92.20%,优于默认参数下的准确度87.99%。训练集均方根误差为1.17,测试集均方根误差为2.95。图3是西北太平洋热带气旋年生成频次的预测结果与观测的对比。由图3可见,随机森林回归模型可较好捕捉热带气旋年生成频次的变化趋势,2016—2020年热带气旋年生成频次预测结果分别为 22.1,22.9,26.7,25.7和22.4。
另外,影响因子的重要性体现其对预报量可预测性的贡献,随机森林回归模型中以每棵随机树基尼指数的平均值表示,对其进行排序,结果如表2所示。由表2可见,X2(春季南印度洋海温异常)对西北太热带气旋年生成频次影响最大,X4(夏季西太平洋暖池海温异常)对西北太热带气旋年生成频次影响最小。这说明海温在影响热带气旋生成的海气相互作用中可能起主导作用,这可能与海水热容量大有关。尽管海温变化缓慢,但可对大气系统产生持续影响,在年际、年代际或更长时间尺度上更为明显[40-41]。由上述相关分析可知,不同海区的海温对西北太平洋热带气旋年生成频次均有影响,但多个因子共同作用时,局地热力因子的影响减弱,其他地区的遥相关影响则发挥更大作用,这可能与西太平洋暖池海温有关。由于西太平洋暖池海温常年在29℃以上,满足热带气旋生成所需的热力条件[42],因此,局地海温变化不是引起热带气旋年生成频次差异的主要原因。在所涉及的大气环境因子间,垂直风切变、相对涡度、位势高度、相对涡度对西北太平洋热带气旋年生成频次的贡献逐渐减弱。随机森林回归模型中变量的重要性排序可揭示环境因子对西北太平洋热带气旋年生成频次的影响。
表2 预测因子重要性排序Table 2 Importance ranking of predictors
2.2.1 影响因子
热带气旋发生发展的必要条件可分为动力潜在条件(一定的地转偏向力、足够大的低层相对涡度、较小的对流层垂直风切变)和热力潜在条件(较高的海表温度、地面层和上部流出层的相当位温差、对流层中层的相对湿度),出现外部扰动时,热带气旋才能发生发展起来[43]。另外,热带气旋生成位置的空间分布受ENSO调控[24-25,44]。本文选取850 hPa相对涡度、850 hPa与250 hPa垂直风切变、600 hPa相对湿度、潜在强度、海表温度异常以及ENSO作为热带气旋空间生成位置的潜在预报因子。
2.2.2 局部泊松回归模型
研究采用Yonekura等[35]局部泊松回归模型,并增加逐步回归过程,减少数据冗余。将研究区域(0°~40°N,100°E~180°)划分成1°×1°空间网格,以网格中心为圆心,逐月统计半径范围内热带气旋年生成频次作为局部泊松回归模型的预测变量,采用前进逐步式筛选变量法从潜在预报因子中选出重要因子,建立泊松回归分析的解释模型,使用极大似然法估计模型系数。使用标准正态核密度估计器估算热带气旋空间历史生成概率,并采用留一法-最大似然交叉验证计算100,200,…,3000 km不同半径对应的对数似然值,选择似然增长趋近平稳的半径作为最优半径(表3)。
表3 最优半径Table 3 Optimized scale
利用每个网格逐年月的环境变量参数以及回归模型的系数,估计网格中心半径L范围内热带气旋的生成频率λ。对热带气旋资料不足的网格不宜采用局部泊松回归模型,使用热带气旋年生成频次的平均值代替局部泊松回归模型表征热带气旋生成概率。考虑到局部泊松回归模型稳定性和全区域热带气旋生成概率对阈值的敏感性,选取9作为阈值标准,即当热带气旋年生成频次不少于9时,采用局部泊松回归模型估计热带气旋生成概率,对热带气旋确有发生但年生成频次不足9时,采用热带气旋年生成频次的多年平均值表示气旋生成概率。网格处的热带气旋生成概率由1°×1°正方形网格与半径为L的圆面积比值乘λ求得,全区域的热带气旋发生概率是单个网格概率与所有网格概率之和的比值。
为检验局部泊松回归模型的有效性,将2016—2020年热带气旋年生成位置的观测与预测概率进行比较(图4)。由图4可见,2016,2017,2019年模拟准确,2018年和2019年偏差明显。2016,2017,2019年热带气旋主要生成在菲律宾以东海域,历史样本多,而 2018年和2020年热带气旋主要生成在南海,历史样本较少。对菲律宾以东热带气旋频发的海域,模型效果较好。可见模型对于一般年份预测能力较好,但对异常年份预测能力有限。
2.2.3 热带气旋生成位置模拟
利用随机森林回归模型和局部泊松回归模型对1979-2020年热带气旋空间生成位置进行模拟。首先,利用随机森林回归模型确定全区域热带气旋年生成频次;然后,在全区域年生成频次控制下,随机采样热带气旋年内日生成时间概率,确定热带气旋每日生成的热带气旋数量;最后,根据热带气旋生成所在日,寻找热带气旋所在年份及所在月份的环境变量,利用局部泊松回归模型估算热带气旋生成位置的空间概率,结合蒙特卡洛随机抽样确定热带气旋空间生成位置点(图5)。由图5可知,热带气旋模拟生成点分布与观测基本一致,对于模拟生成点与观测空间分布差异可通过提高模型预设的空间分辨率加以改善。
1) 随机森林回归模型预测的西北太平洋热带气旋年生成频次与观测非常相似,模型可以预测西北热带气旋年生成频次的主要变化和趋势,随机森林模型适合使用高维数据处理非线性预测问题。模型中影响因子重要性的排序表明海气相互作用中海温起主导作用,其他海域海温的遥相关作用大于局地海温的直接影响。随机森林回归模型在揭示环境因子对西北太平洋热带气旋生成频次的影响具备适用性。
2) 局部泊松回归模型预测西北太平洋热带气旋生成位置概率在菲律宾以东热带气旋频发海区的模拟较好,在南海海域的模拟偏差较大。
3) 蒙特卡洛随机抽样热带气旋生成位置与观测基本一致,主要分布在南海和菲律宾以东海域。
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!