基于CEEMD-ELM-ARIMA的天然气价格预测模型研究

时间：2024-11-06

张金良刘子毅王明雪

华北电力大学经济与管理学院, 北京 102206

0 前言

长期以来,天然气作为一种具有自然垄断属性的产品,大多数国家对其管制非常严格,其价格受各国控制并由国家制定固定价格,故天然气价格始终没有巨大的起伏。近年，部分国家开始对天然气价格放松管制,向着市场化改革,对天然气价格的预测已经成为国内外亟需解决的问题。目前，针对能源价格的预测研究较多,常见的能源价格预测模型大体可以分为四类:时间序列模型、人工智能模型、组合预测模型和混合预测模型。例如:文献[1]通过建立模糊时间序列模型来预测原油化工品的期货价格;文献[2]分析煤炭价格历史数据,采用季节时间序列预测模型对煤炭价格进行预测；文献[3]应用混沌PSO优化BP神经网络的方法进行煤炭价格预测;文献[4]通过构建LSTM-RNN深度神经网络对原油价格做预测研究；文献[5]采用遗传算法的BP-LSSVM组合变权模型预测电价;文献[6]提出基于聚类经验模态分解与小波神经网络的组合预测模型来预测短期电价；文献[7]提出了一种基于小波变换和ARIMA的短期电价混合预测模型;文献[8]提出一种基于变分模态分解、季节性差分自回归滑动平均模型和果蝇优化最小二乘支持向量机的混合模型来对国际原油价格做预测研究。碳价、原油价格以及电价的预测研究较为广泛,模型应用也趋于多样化，而天然气作为常见的能源,对其价格的预测研究却较少。目前，针对天然气价格预测的研究大多用定性的方法简单分析了天然气价格的发展趋势,实际数据预测的研究较少,如文献[9]把相关油品价格纳入天然气价格影响因素中,并采用多维自回归模型预测天然气价格,这是国内首次对天然气价格进行建模预测；文献[10]利用灰色模型对郑州天然气价格进行预测,并剖析影响因素；文献[11]通过分析城市天然气市场需求以及天然气价格承受能力,从而确定供气价格；文献[12]考虑到天然气市场的“异质性”问题构建RV多时段IV以及JV异质自回归模型(HAR-RV-CJ)来预测天然气价格,取得了很好的预测效果；文献[13]基于数据挖掘技术,提出了一种新的改进模式序列相似性搜索(APSS)天然气价格预测方法；文献[14]利用伽马试验作为非线性建模工具并借助回归模型和神经网络模型两种模型对天然气现货价格进行预测；文献[15]应用神经网络和支持向量机进行天然气价格预测。但上述文献仍存在不足:首先,在做预测分析之前并没有对输入模型中的历史数据进行分解处理,未能描绘出局部数据的细节和特征,这显然会对预测精度产生一定程度的影响；其次，在方法的选择上较多地利用单一模型预测，导致不能充分提取历史数据中的信息,也降低了预测精度。为此,本文结合对天然气价格波动大、无规律的特点提出基于互补集成经验模态分解模型、CEEMD模型(Complementary Ensemble Empirical Mode Decomposition，CEEMD)、ELM模型(Extreme Learning Machine,ELM)和ARIMA模型的混合预测模型。CEEMD模型是源于经验模态和集成经验模态进行改进的自适应经验模态分解，可以依赖信号本身的特点分解成不同特征尺度的平稳信号,同时将分解分量划分高低频率进行预测,既保存了ARIMA模型对稳定的时序数据敏感度高且善于捕捉数据中线性关系的优势,又结合了ELM算法较非线性映射能力强的优势。

1 模型基本原理

1.1 CEEMD模型

CEEMD模型这种方法的优点在于重构信号的过程中同时添加两个幅值相同、相位相反的高斯白噪声,解决了EEMD重构误差的问题,同时对模态混叠和残留白噪声的影响起到抑制效果[16-18]。CEEMD具体分解步骤如下:

(1)

2)通过EMD算法将加入噪声的序列进行分解处理得到IMF分量C1j和趋势余量r1。

3)同样利用EMD分解,将步骤1)中加入符号相反的白噪声序列处理后得到分量C-1j和r-1。

4)重复运算步骤1)～3)n次,得到n组C1j,r1,C-1j,r-1。

5)选取多次分解得到的2组残留正负白噪声的IMF分量的均值作为最后结果,即

(2)

1.2 ELM模型

ELM由输入层、隐含层和输出层三部分组成,是黄广斌等人在2004年提出的单一隐含层的前馈神经网络模型,其学习速度快、泛化能力强,目前已经在许多领域取得了广泛的应用[19]。该模型可以对其输入权重以及偏置进行随机的初始化,并通过设定激活函数和隐含层个数来得到相应的权值。ELM模型参数设定简单,在训练样本数据过程中仅需要设定激活函数和隐含层神经元的个数,即可得到唯一最优解。为避免过拟合的现象出现，一般隐含层个数设定要远小于样本个数。ELM模型的隐含层结构和单隐层前馈神经网络(SLFN)结构极其相似,这种结构避免了普通神经网络模型的梯度下降算法对参数选择的敏感性,即因为参数设置不合理产生的过度拟合或者欠拟合,甚至运算时间慢。

假设有n个输入变量X=[x1,x2,x3,x4,…xn],隐含层个数为L,激活函数用g(x)表示,则隐含层输出函数为:

(3)

式中:wi=[wi1,wi2,wi3…win]T是连接第i个输入层和隐含层的权值向量,βi=[βi1,βi2,βi3,βi4…βin]T是连接第i个隐含层和输出层的权值向量；bi为第i个隐含层的神经元偏差值。

选择隐含层的输出结构:隐含层的输出结构会根据隐含层的激活函数g(x)的变化而变化。ELM模型的常见激活函数有以下几种。

1)sigmoid函数:

(4)

2)Sine函数:

g(x)=sin(x)

(5)

3)Hardlim函数:

(6)

4)径向基RBF函数:

g(wi,bi,x)=g(bi||wi-x||)

(7)

ELM模型的输入层的神经元个数对应了n个输入变量x,而输出层的神经元个数对应了m个输出变量y。ELM模型网络结构见图1。

图1 ELM网络结构图Fig.1 ELM network structure

1.3 ARIMA模型

ARIMA(p,d,q)称为差分自回归移动平均模型,它由自回归模型(AR(p))和移动平均模型(MA(q))两部分共同构成的随机过程。其中p为自回归项数,q为移动平均项数,d为时间序列成为平稳时所做的差分次数[20]，具体形式为:

xt=φ1xt-1+φ2xt-2+…+φpxt-p+ε-θ1εt-1-

θ2εt-2…-θqεt-q

(8)

式中:φ为自回归系数;p为自回归阶次;θ为移动平均系数;q为移动平均阶次;{ε}为白噪声序列。

2 混合模型构建

天然气价格通常受供需方价格、体制等因素影响,新冠疫情为天然气价格的波动增加了许多不确定因素,因此亟需提高对天然气价格的预测精度以便更好地掌握天然气市场的动态。由于天然气价格原始序列的复杂性,首先利用CEEMD模型处理天然气价格样本数据,构造出具有不同特征的分量,针对不同特征的分量采用不同的模型做预测。使用ELM模型对其中的高频分量进行预测,使用ARIMA模型对低频分量做预测研究。基于组合模型的预测流程见图2,具体步骤分为4步。

图2 CEEMD-ELM-ARIMA混合模型预测流程图Fig.2 Flowchart of CEEMD-ELM-ARIMA hybirdmodel prediction

1)收集天然气日度价格的历史数据,应用CEEMD模型将样本数据分解成若干个不同尺度的IMF分量和1个残差。

2)根据图像的波频和振幅特点,将分解出的若干分量划归为高频分量和低频分量。

3)利用ELM模型处理高频分量的数据得出预测值；低频分量采用ARIMA模型进行预测,得到预测值。

4)将步骤3)中高频分量的预测值与低频分量的预测值加总求和，即得到最终预测结果。

3 算例分析

3.1 数据来源

本文以天然气日度现货价格为例,验证CEEMD-ELM-ARIMA模型的有效性。目前，已形成以北美、欧洲、亚太三大地区为贸易中心的天然气市场格局。这三大中心所公布的天然气价格已经成为国际上天然气价格水平的重要标尺和价格涨跌的风向标。其中美国Henry Hub交易中心是市场流动性最高、影响力最大、最能反映市场供需关系的交易中心。为了与现有文献中的预测方法进行公平对比,这里选用的数据与文献[13]相同,故选取Henry Hub交易中心公布的1997年1月7日—2018年1月1日价格数据进行验证,去除周六、周日不交易日以及不完整的历史数据外,共5 281个日度数据。将1997年1月7日—2016年12月31日共5 022个数据作为训练集,进行预测模型的回归训练,并将模型用于预测2017年整年的259个预测集数据。

3.2 数据分解

过去天然气价格受多种因素影响,因此波动趋势呈现高振幅的无规律波动。将天然气价格利用CEEMD模型进行分解,在原始天然气价格的时间序列中加入50组白噪声序列,幅值设为0.2,此时产生12个本征模态函数IMF和1个残差项R13,将分解结果按照高频至低频顺序进行排列后结果见图3。

图3 CEEMD分解图Fig.3 CEEMD breakdown

根据波动频率将产生的13个分量划分成高频分量和低频分量两类。IMF1～IMF9分量周期短,波动大,将其分为高频分量,采用ELM算法对其进行预测；IMF10～IMF12和R13波动小而平缓,周期长度超过2 a,将其划分为低频分量,利用ARIMA模型进行预测。所有分量预测值累积求为CEEMD-ELM-ARIMA模型预测天然气结果。为了验证本文组合预测模型的有效性,本文使用Matlab 2016b编程建立模型。并分别用ARIMA模型,ELM模型进行结果横向对比,对ELM模型与数据挖掘技术预测结果的准确性进行纵向对比。

3.3 模型求解

为了避免由于数据采集误差、系统故障和干扰噪声等因素引起的样本数据异常,在预测前对分解后的数据集进行标准化处理,标准化公式为:

(9)

式中:x*为标准化处理后的样本数据；x为原始的序列数据；xmax和xmin分别为原始数据的最大值和最小值。

评价预测结果的准确性,本文采用预测评价中的3个指标,即均方根误差RMSE、平均绝对误差MAE和期望值平均绝对百分比误差MAPE,3个指标的计算公式依次为:

(10)

(11)

(12)

显然,从评价指标的实际意义可以看出,RMSE值和MAPE值越小,表示CEEMD-ELM-ARIMA模型的预测效果及预测性能越好。

CEEMD-ELM-ARIMA模型预测结果见图4。由图4可以看出,CEEMD-ELM-ARIMA模型的预测结果与实际天然气价格十分拟合,将整体波动趋势完整地预测出来,并且有多个数据预测值与实际价格达到完全吻合,其误差值与其他模型对比见表1。

表1 2017年天然气价格整体预测误差值对比表

图4 预测结果对比图Fig.4 Comparison of prediction results

本文将ARIMA和ELM模型结合不仅改善了ARIMA模型没有考虑外在因素的影响,样本数量不宜过多,对非线性、不平稳时间序列预测能力不强的缺点,同时还结合了ELM模型与其他神经网络算法相比最大的优势,从而避免了不断调整参数带来的客观因素,还提高了模型的学习效率,增强了模型的泛化能力。从表1可以看出,CEEMD-ELM-ARIMA预测模型无论从对数据的拟合度还是数据预测误差都明显优于ARIMA和ELM模型单独预测结果。CEEMD-ELM-ARIMA模型MAE为0.002 9,ARIMA模型的MAE是其3倍多,ELM模型的MAE是CEEMD-ELM-ARIMA模型的1.5倍。且CEEMD-ELM-ARIMA模型MAPE仅仅为0.98%,RMSE为0.045 4,也远小于ARIMA和ELM模型单个模型。纵向来看,最初由学者采用的数据挖掘技术预测结果,MAE、MAPE、RMSE分别为0.136 0、6.18%和0.165。文献[13]改进后的PSS模型MAE、MAPE、RMSE均有提升,但相比本文常用于预测的时间序列模型和机器学习预测效果不佳。为了进一步证明CEEMD-ELM-ARIMA模型的预测精度优于其他模型,对2017年预测集数据进行进一步分割,得到12个时间段，对12个时间段分别进行预测,得到图5。分时段预测结果误差对比见表2。

图5 分时段预测结果对比图Fig.5 Comparison of forecast results in different periods

表2 分时段预测结果误差对比表

从表2数据可看出以下两点。

1)无论是单一时段还是整体预测结果,CEEMD-ELM-ARIMA模型预测结果都比其他模型误差要低。以整体预测结果为例,CEEMD-ELM-ARIMA模型的MAE、RMSE、MAPE分别为0.002 9、0.045 4和0.98%,表明CEEMD模型对数据分解之后的预测效果明显优于单个模型,表明CEEMD模型的有效性。

2)改进的APSS模型以数据挖掘技术为基础,对时间序列进行分析,从大量的数据找到相似从而做进一步预测。这种算法的拟合度优于PSS算法,但是单一模型一定程度上有局限性,由表2各月份的误差分析可知，APSS模型最终的预测结果仍有较大误差;另外,不难看出ELM模型的预测结果最接近CEEMD-ELM-ARIMA模型的预测结果,但是误差仍比混合模型略大。虽然智能算法的拟合度较好,但是CEEMD-ELM-ARIMA模型可以针对不同数据的特性充分发挥各模型的优势,更好地提高预测精度。从而进一步验证了混合模型预测的准确性。

4 结论

针对以往文献并没有对天然气价格进行去噪处理,同时预测精度不佳的现状,本文提出一种基于CEEMD、ELM模型和ARIMA的混合模型来对天然气日度价格进行预测。通过对原始时序数据的分解来达到重构预测变量的目的,针对不同特征的变量采用合适的方法做预测研究。首先利用CEEMD将天然气价格历史数据序列分解成若干个波频、振幅均不一致的子序列,再根据不同的波频分别采用ELM模型和ARIMA模型求得预测结果,最后将两种方法的预测结果相加完成整个组合模型的最终预测。为了进一步验证模型精度,对1年当中的12个时间段分别进行预测。整体的预测结果和分时段的预测结果均表明组合预测模型具有更高的预测精度和较强的预测性能,所以此预测方法可更精准地预测天然气价格,进而更好地掌握未来一段时间内天然气市场的形势。国内天然气价格长期受管制,价格波动较小,并且美国Henry Hub交易中心的天然气价格在全球天然气交易的价格中具有代表性,所以应用于Henry Hub的天然气价格预测分析方法对国内未来天然气价格趋势分析同样具有前瞻性。目前的研究主要着力于提高天然气价格点的预测值精度,下一步的研究可通过区间预测来掌握预测结果的变化范围。