时间:2024-05-24
吴金冉,李维德,孔德萌
(兰州大学数学与统计学院,兰州 730000)
淡水资源危机现已成为严重制约西北半旱区可持续发展的首要因素。而其中,半旱区降水作为该地区主要淡水来源,其的预测研究分析对半旱区的居民农牧活动及野生物种生存等各方面具有重要指导意义。而本文以生态稳定性较为脆弱的青海省海东地区和果洛州的月度降水为研究对象,通过构造具有高精度的降水预报模型以对该地区的经济农业生活提供有效的指引。
一般而言,依据不同的模型构造原理,降水预报模型通常可分为两大类型:数据驱动模型(Data Driven Models)和物理过程模型(Physical Process Models)[1,2]。第一大类方法主要依据所获得的各种气象数据集,通过“黑箱”建立输入和输处变量间的数量关系,这里需要指明,该方法仅仅依赖一条序列信息也可以获得较为突出预报效果;而第二大类方法,通常要求较高的空气动力学系统基础,并依赖于大量的变量信息(湿度,日照,温度等),通过极为复杂数学公式来有效的表示降水的物理过程,从而获得较为准确的降水预报值[3,4]。而近些年来,以机器学习为代表的数据驱动模型,凭借其出色的获取历史经验数据集特征的能力,被广泛运用于水文数据预报研究中,其中,又以支持向量机模型(Support Vector Machine, SVM)和人工神经网络模型(artificial neural network, ANN)最为常见[5-7]。虽然该类建模方法可以通过观测点数据集来建立非线性系统,但大量该方法研究仅仅局限于单点(观测点)降水预报上,而并未将空间相关站(多观测)点信息运用于模型构造中。这里需要提及,机器学习学家Vapnik于1995年创立的支持向量机模型以其出色的非线性拟合能力和鲁棒性,该模型现已广泛的运用于河流径流量、台风降水、月度降水和地下水井深等水文变量预报中来[8-11];统计学家Engle和Granger为了解决多条时间序列的非平稳性所导致的“伪回归”现象的发生,提出了协整分析(Co-integration Analysis)[12];而当前,该方法已初步被应用于降水预报和空气颗粒预报等环境工程研究中[13,14]。而本文以西北半旱区海东地区和果洛州月度降水为研究对象,将上述两种方法进行结构以构建联合降水预报模型。具体的来看,将协整分析运用于降水预报研究中,打破了传统单一观测点的降水预报建模方法,且以经典的支持向量机模型作为主算法来获得输入变量(input variables)和目标(targets)之间的“黑箱”(非线性系统)来对多观测点降水进行同步降水预报。
本文主要介绍降水预报的意义、常用的建模技术以及文章所提出的方法技术的发展;本文采用的预报技术详情,主要包括联合预报模型所运用到的协整理论、支持向量机原理和联合模型构造的过程;主要包含验证模型所运用的研究对象简介、数据集、模型仿真结果以及相关对比模型的比较分析结果;总结所构建的基于协整关系—支持向量机模型(CI-SVM)在半干旱区降水预报研究中的突出的效果,以及该预报模型的结果在海东地区和果洛州的降水资源管理规划中的实际意义。
为了获得高效的机器学习模型来解决分类和回归问题,1997年Vapnik教授改进了支持向量机模型[14]。该方法主要是寻求模型的经验误差与模型复杂度之间的最佳权衡关系,而此关系是将支持向量机回归(SVR)的表达函数f(·)约束至分类的超平面所得到的。这里可以认为,f(·)只决定于减少的训练集的支持向量(support vectors),但支持向量对于优化问题的约束空间。具体的来说,存在m个样本(sample)数据集(xi,yi)∈RN×R,其中N为输入变量的维度,可以得到,支持向量回归优化问题的数学表达式为:
maxW(α,α*)=
(1)
(2)
表达式(2)中,C为模型的负责度惩罚参数,α和α*是约束的二变量。需要说明的是,支持向量机回归引入了核函数(kernel function)k(xi,x)来将非线性回归问题转化为线性回归问题来解决,进一步,结合公式(1)可得到模型的最终模型为:
(3)
由于时间序列变量间的回归容易导致“伪回归”的发生;因此,为了描述非平稳时间序列间的长期均衡关系的而提出了协整的概念。若存在某非平稳时间序列经过d次差分后为平稳序列,则称该序列为d阶单整,也记为I(d)[12]。若存在Xt和Yt为同阶单整序列,且其的线性组合ut=Yt-βXt为平稳序列,即uy~I(d),则称Xt和Yt为协整关系。这里需要重点指出,为了判断两条序列间存在显著的因果关系,1987年Engle和Granger提出了E-G两步检验法。该主要想法是,第一步,运用最小二乘法进行用Xt对Yt做回归模型,得到残差εt;第二步,检验残差εt是否为平稳序列,若是则认为二变量间为协整关系,若否则认为不存在协整关系。
本文所建立的联合同步降水预报模型----协整关系的支持向量机模型(CI-SVM)的主要想法是,利用协整理论检验多个站点间的空间相关性,并以此来增加在构建降水预报模型中可运用到的相关信息,然后,采用支持向量机模型来建立输入和目标变量间的非线性系统,进而得到多空间同步联合降水预测结果。具体的模型流程如下:
Step 1:输入两地区降水时间序列信息,记为{Xt}和{Yt}。
Step 2: 对{Xt}和{Yt}的是否存在伪回归进行协整检验。
Step 3: 用协整检验结果确定两条序列间的输入变量和目标之间的映射关系。
(4)
式中:p和q分别为{Xt}和{Yt}的滞后期数;f为支持向量机所获得的“黑箱”。
Step 4: 通过所建立的非线性映射系统进行多空间联合降水预报。
为了验证所提出的联合降水预报模型的效果,本文选取了位于西北半干旱区的海东地区和果洛州的月度降水量为预报对象。海东地区是青海省重要的农牧业生产基地和乡镇企业发达区域之一,而果洛州位于青藏高原的腹地,且二地区皆具有高寒、缺氧、低温、干旱和日照较长等特征,二者的年平均降水量取值分别为319~531和400~760 mm。
本研究对象为青海省海东地区和果洛州的月度降水h,而本次试验数据集主要源于青海省统计年鉴(http:∥www.qhtjj.gov.cn/tjData/qhtjnj/)。其具体月度降水量趋势如图1所示。
海东地区和果洛州的月度降水量如图1 所示,可以得出,二地区的月度降水量存在明显的周期性变化规律;具体的看,夏季(6-8月)的降水量远远高于其他三季,而冬季的降水量最低;并且,对比两折线趋势可发现,海东地区和果洛州具有较高的同步性,而该特征将被运用于协整关系的建模分析中。通过SPSS软件对两地降水量进行描述统计分析得到表1。
表1 海东和果洛月度降水量描述分析 mm
图1 海东和果洛月度降水量
这里需要说明,为了验证所提出联合预报模型的高效,本文所提到的模型所采用的训练数据集和测试数据集分别为前96个月降水序列数据和后12个月度降水序列数据。
海东和果洛的月度降水量平稳性和协整检验结果见表2。
表2 海东和果洛的协整检验
通过表2可得,序列平稳性ADF单位根检验的原假设为存在单位根,通过计算得到海东和果洛的月度降水量序列的p值分别为0和0.083,在置信水平10%下,拒绝原假设,则认为该两条降水序列皆为0阶单整的。然后,通过建立回归模型得出对应的残差序列,在置信水平1%下,该序列的平稳性检验的p值为0,拒绝原假设,则可认为其是平稳的,进一步得到海东地区和果洛州的月降水量间存在显著的协整关系。经过多次试验尝试,本次仿真以海东地区和果洛州前36月降水量为预报模型的输入变量,两地下一月的降水量为预测模型的目标变量进行滚动预测。
在Matlab2018a版本下建立支持向量机回归模型,结果见表3。
表3 CI-SVM 模型对海东和果洛月度降水测试指标
表3为提出的CI-SVM模型分别对海东地区和果洛州月度降水量的预报结果。① 从绝对水平上,二地区的所有平均绝对误差MAE皆小于12.5;② 从相对水平上,标准化平均方差误NMSE全都小于0.13;③从相关水平上,纳什系数NS都大于0.86;可认为所提出的联合模型CI-SVM对海东地区及果洛州的月降水量具有较好的预报效果。具体来看,海东地区和果洛州的月降水预报的三指标分别为7.97、0.1、0.89、12.37、0.12、0.87。其对海东地区和果洛州的月度降水预报的结果具体见图2。
图2 CI-SVM模型的海东和果洛联合预报结果
在此构建两种模型(即SVM和CI-NN)作为参照模型,和CI-SVM模型就海东地区和果洛州月降水量的预测精确度进行对比分析。SVM即持向量回归模型,不考虑序列相关性,除去CI-SVM的协整关系;CI-NN即BP神经网络模型,建立在协整关系基础上,用ANN替换CI-SVM模型中的SVM。具体对比分析见表4。
参照表4,对比CI-SVM、CI-NN、SVM 3种模型预测结果可得,CI-SVM模型的预测精确度最好,该模型中平均MAE10.17、平均NMSE0.11、平均NS系数0.88,此三项指标优于CI-NN模型的相应指标数据10.23、0.15、0.85和SVM模型的相应指标13.51、0.17、0.83。
表4 模型指标对比分析
由表4得出,CI-SVM模型优于CI-NN模型,由此可得,在联合模型中SVM贡献值优于ANN,即SVM作为主体算法所得的效果更好。从数据分析看来,CI-SVM指标优于SVM,由此得出,多观测点同步预报的精度优于单观测点预报的精度,即由协整理论引入的多观测点信息提高了模型的精准性。综上所述,相较于其他模型,经由CI-SVM模型所得出的预测结果是非常精确、科学且合理的。
本文所构建的二空间联合同步降水预报模型CI-SVM在海东地区和果洛州月度降水数据集的验证中获得较为突出的效果,其的平均MAE、平均NMSE和平均NS系数分别为10.17、0.11和0.88。进一步可以得到,所提出的CI-SVM模型利用协整关系将传统的单观测点降水预报拓展到了多空间同步联合预测,通过提高建模中所使用的相关空间信息,进而取得了更优的预报精度。并且,通过其他对比模型,该联合模型验证了机器学习中的支持向量回归模型可以提高月度降水预报的效果。最终,可以将该联合模型的预报结果运用于半旱区的生态监管和规划中,且运用计算出来的结果给农牧民的产品种植以及家畜养殖提供些指导意见,进而,促进海东地区和果洛州的可持续发展。
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!