当前位置:首页 期刊杂志

基于深度学习的PM2.5多模态集成预测应用

时间:2024-06-19

黄恒君,王伟科

(兰州财经大学统计学院,甘肃兰州730020)

一、问题的提出

空气是人类生命不可缺少的物质,它的状态和质量直接影响着人类的生活。严重的空气污染会直接诱发慢性疾病和呼吸道疾病(Saide et al.,2011)[1],造成严重的人体伤害及经济损失(康晓明等,2015)[2]。空气质量“既是环境问题,也是重大民生问题,发展下去也必然是重大政治问题”。

就空气质量而言,公众关注的物理现象与学者们研究的空气质量测度问题具有高度的一致性,如未来的空气质量趋势如何(时间序列预测、预报问题)(Shang,2017)[3],监测站点的位置和数量是否足以反映既定区域的空气质量(站点布局问题)(Pires and Martins,2012;Joly and Peuch,2012)[4,5],远离监测站点区域的空气污染水平如何推测(空间插补问题)(Zheng et al.,2014)[6],空气质量优良有何表现(多种污染物的综合评价问题)(Plaia and Ruggieri,2011;周文华等,2005)[7,8],哪些因素会影响空气质量(计量模型估计问题)(Li et al.,2014;李令军等,2008)[9,10],空气质量对人类健康及经济活动有何影响和制约(风险暴露问题)(Cao et al.,2011)[11],有关人类经济活动的环境政策是否有益于空气质量改善(机制设计与博弈问题)(Chen et al.,2018;漆威,2015)[12,13]。当然,人们能够直观感知的还是空气质量的实时监测水平以及对未来的预测、预报,其中,粒径小于或等于2.5微米的细颗粒物(PM2.5)更是人们关注的焦点。

就空气质量实时监测水平而言,自2012年起,中国环境监测总站依据《环境空气质量监测规范(试行)》、①《环境空气质量指数(AQI)技术规定(试行)》(HJ633-2012)②等,监测并实时发布空气质量的相关数据。自动传感和实时发布技术为公众实时了解空气质量提供了可行的途径,而互联网技术及便捷的终端设备为人们获取空气质量的相关信息提供了快捷的方式。同时,为了使环境空气质量监测更符合实际情况,我国在全国范围内推行了修订的《环境空气质量标准》,增加了对PM2.5的监测。至此,PM2.5成为空气质量指数的一个重要指标,引起了公众和学界的广泛关注。

物联传感和数据发布技术所带来的海量数据,使得针对空气质量的精细化分析成为可能。仅就预测而言,建立城市空气质量早期预警系统、提前预测和预报空气质量指标,尤其是PM2.5浓度指标,对于防范大气污染所带来的健康危害和经济损失具有很大的应用价值。同时,利用精细化数据开展精准化预测,也对分析方法提出了更高的要求。基于此,本文尝试以多模态(多视角)分析逻辑为切入点,以PM2.5浓度为例,从空气质量时间序列数据中提取整体趋势、局部特征等信息,在“分解-集成”的框架下,构建针对单一污染物的预测模型,并进行应用研究。

二、空气质量预测方法概述

近年来,很多学者对空气质量预测方法进行了研究,包括基于空气动力学、物理扩散和化学反应的机理分析以及基于数据驱动的建模分析等。由于机理分析着眼于与大气污染物相关的物理、化学、气象和地理位置等不同条件下污染物分布、扩散等的变化,该类分析所需的初始值、边界条件等不易准确量化,且成本高昂(El-Harbawi,2013)[14],故本文主要针对基于数据驱动的统计建模进行分析。

基于数据驱动的建模研究方法可以分为两类,即传统统计分析方法 (Jian et al.,2012;Sun et al.,2013)[15,16]和机器学习方法(Sun et al.,2017;Wang et al.,2015)[17,18]。统计分析方法主要有自回归移动平均法(ARIMA)(Jian et al.,2012)[15]、广义自回归条件异方差(GARCH)、隐马尔科夫模型(HMM)(Sun et al.,2013)[16]等,这类统计方法主要是利用平稳数据进行线性分析,既不易获得非平稳、高波动数据的非线性潜在模式,也不易学习目标因素与相关因素的复杂关系(Wei et al.,2019)[19]。因此,机器学习方法被引入预测分析中,如后向传播网络(BP)(赵文怡等,2019)[20]、最小二乘支持向量回归(LSSVR)(刘小兵,2016)[21]、极限学习机(ELM)(Polezer et al.,2018;罗宏远等,2018)[22,23]等,其也取得了比传统统计分析方法更好的预测效果。然而,这类非线性的机器学习模型也存在参数优化、过拟合等问题。由此,深度学习尤其是适用于时间序列数据的长短期记忆网络(LSTM)由于具有特殊的“门”结构和跨历史的学习性能,其在有时间特征的数据学习上体现出天然优势。LSTM在保证较强学习能力的同时,能够规避BP神经网络不能反映时序特征的缺点,缓解了递归神经网络(RNN)优化过程中的梯度爆炸或消失问题,其计算结果也更加可靠(Sepp and Jurgen,1997)[24]。

为了克服不同模型的缺点,充分利用不同模型的优势,有学者尝试构建混合预测模型。Liu和Li(2015)[25]将传统统计方法与机器学习方法结合起来建立混合预测模型,但这种直接合并、拼接的方法有赖于研究数据的特点和具体方法,统计中的非平稳数据学习能力不足、机器学习优化过程容易过拟合等问题没有得到很好的解决。Xiong等(2019)[26]、Wang等(2019)[27]开展的时间序列预测工作是从信号分解出发,基于“分解-集成”研究框架进行预测,预测效果良好。其基本研究逻辑可以表述为,将原始数据信号分解为多个不同带宽的分信号,分别针对各个分量训练模型并预测,再将各个分量的预测结果集成为最终结果。一般来讲,混合模型表现出优于单一模型的预测效果,而采用“分解-集成”方式能够获得更高的预测精度(Gan et al.,2018)[28]。

在“分解-集成”的研究框架下,分解是关键点之一。目前的信号分解途径主要有奇异值谱分解(SSA)、小波转换(WT)和傅里叶变换(FT),其中,基于傅里叶变换的经验模态分解(EMD)方法或集成经验模态分解(EEMD)、完备集成经验模态分解(CEEMD)被认为是有效的分解方式(Niu et al.,2017;Tang et al.,2018)[29,30]。罗宏远等(2018)[23]、Gan等(2018)[28]将分解方法结合使用,实施了二层分解等。近几年出现的变分模态分解(VMD)方法能够抽取具备完全物理意义的分信号,从而缓解EMD信号混频问题,且具有抗噪音能力(Dragomiretskiy and Zosso,2014)[31],有助于预测精度的提高。

相对于利用原始信号直接建模,在“分解-集成”框架下对各个分信号进行建模预测和集成,由于模型的复杂性提高,其更可能出现过拟合问题。为了保证模型的稳健性和预测精度,优化其在测试集上的表现,在预测模型的目标函数中引入合适的正则项是必要的。弹网可以平衡一阶范数惩罚(LASSO回归)和二阶范数惩罚(Ridge回归)的特点,具备灵活性和“自适应性”,能够较好地防止模型过拟合。此外,设计学习算法的目的是优化预测模块的参数,提高模型性能,而网格搜索算法(GS)是针对深度学习网络的一种具有实践意义的参数优化方法。需要注意的是,数据分析之前的数据预处理有助于减少极端值和缺失信息的影响,改善数据质量。

基于以上分析,本文在研究中主要考虑以下问题:(1)为了改善数据质量,对数据进行预处理是必要的;(2)在预测模块的选择上,LSTM神经网络在保证对非平稳数据具有较强学习能力的同时,可以规避递归神经网络的梯度爆炸问题;(3)在集成机制的使用上,采用“分解-集成”框架可以更好地适应具有非平稳、含噪声、高波动等特征的时序数据;(4)在信号分解方法中,VMD能够克服EMD方法的信号混频、不灵活等缺点,可以分解得到具有实际意义的分信号,其更贴近实际,从而提高最终的预测精度;(5)在过拟合问题的规避上,弹网正则化惩罚的预测模块较原始模块显示出更高的粗糙性和稳定性;(6)在参数优化的方法上,GS是一种有效的深度学习网络优化方法,可以成为深度学习任务的常用方法。具体而言,为了提高PM2.5浓度的预测精度,本文在“分解-集成”的框架下,从信号分解、预测模块和参数估计三个方面对已有模型进行改进和优化,构建VMD-ELSTM-GS模型。

三、多模态集成预测模型

由于受到诸多因素的综合影响,空气质量每天都会发生动态变化,相应的时序数据也表现出非平稳、含噪声、高波动等特点,故使用单一预测模型很难对未来的具体污染物浓度进行准确预测。本文在建立多模态集成预测模型时首先对历史数据进行预处理,然后基于“分解-集成”的思路构建预测模型,即本文的研究框架为:原始数据预处理—对处理后的数据进行信号分解—将分解后的分信号进行单独预测—将预测的各个分信号进行集成重构并得出最终预测结果。

在图1的研究框架中,本文采用如下方法构建多模态集成预测模型,即VMD-ELSTM-GS模型:(1)采用VMD分解方法对原始数据信号进行分解;(2)利用优化的ELSTM预测模块进行分信号预测;(3)使用GS算法进行参数优化。因此,本文是在“分解-集成”的思路下,从信号分解、预测模块和参数估计三个方面对已有模型进行改进和优化。

(一)变分模态分解

变分模态分解(VMD)是将原始信号分解为K个本征模态函数(IMF),它属于一种各个分信号可以同时抽取的非迭代分解方法,该方法通过寻找一系列模态及各模态的中心频率,重构原始数据。VMD要求K个本征模态函数的带宽之和最小,而该约束是通过使梯度的L2范数的平方最小来实现。因此,VMD的分信号瞬时频谱具有物理意义。VMD分解主要分为四个步骤(Xiong et al.,2019)[26]。

(1)通过希尔伯特变换获取每个模态uk的单边频谱,即有:

(2)将各模态频谱移位至基带,即有:

(3)使梯度的L2范数的平方最小,分解过程利用解下面的优化问题实现:

其中,{uk}={u1,u2,…,uk}是模态,{wk}={w1,w2,…,wk}是模态的中心频率。另外,j2=-1,δ(t)是狄利克雷函数,×表示卷积操作,s表示原始信号。

(4)引入一个拉格朗日乘子λ,转化为如下无约束最小化问题:

其中,α为平衡参数。这个优化问题可以采用迭代方向乘子法(ADMM)求解,具体方法可以参考Dragomiretskiy 和 Zosso(2014)[31]的研究。

(二)ELSTM预测模块

LSTM神经网络是一种特殊的递归神经网络(RNN),它改进了递归神经网络的神经元结构,使之具备了对反馈权值修正的选择性记忆功能,从而缓解了梯度爆炸问题,使误差函数更易收敛至全局最小值。LSTM神经网络的神经元结构如图2所示。

图2 LSTM神经网络的神经元结构

LSTM神经网络的一般计算过程可以简化为如下形式:

式(5)、(6)、(8)、(9)中的 f是 sigmoid 函数,它将变量转换为[0,1]之间的值。式(7)、(8)中的 tanh函数是双曲正切函数,它输出的是[-1,1]之间的值。式中的⊙表示矩阵的hadamard乘积,xt表示时刻t的输入值,ht表示时刻t的隐藏状态,W是权重,b是偏差。我们可以将ft看成是控制多少信息从上一时刻神经元中被遗忘的函数,将it看成是决定多少新信息被存储在当前时刻的神经元中的函数,将ot看成是控制有多少信息被输出的函数,则ft、it、ot共同决定了当前时刻记忆神经元ct和隐藏状态ht的更新。

LSTM网络预测模块有三方面的权重需要学习,即各个节点间的有偏连接权重、神经元内部的输入连接权重和神经元递归连接权重。本文对预测模块的三方面权重学习设置了不同系数的正则化项。正则项是模型学习过程中为防止过拟合或使其具备其他特殊性质而加到目标函数中的惩罚项,本文使用弹网惩罚项,以提高模型的泛化能力。以输入权重的惩罚为例,本文的具体设置方法如下式所示:

当λ1=λ2=0时,上式即为无惩罚的输入权重目标函数;当λ1=0,λ2≠0时,上式即为岭回归的目标函数;当λ1≠0,λ2=0时,上式即为LASSO惩罚;当λ1≠0,λ2≠0 时,上式即为弹网惩罚。

本文中λ1和λ2的值以及网络自身的批次大小、迭代次数、隐藏层数、神经元个数等参数都是利用网格搜索算法(GS)得到的。为了使训练过程加快,λ1和λ2的值使用了先验信息和经验信息辅助。

(三)网格搜索

网格搜索算法(GS)是深度学习中常用的参数和超参数寻找方法。GS的设计思路是,在数据训练之前将模型所有或部分用到的参数、超参数列表,设计循环算法,依次评估模型表现,并以评价指标的均值为标准,从验证集中筛选出表现优良的参数组合,以此为基准进行测试集上的模型比较。需要注意的是,在实验中根据机器的硬件性能进行多进程并行计算以及利用先验的或经验知识,可以加快学习过程。

四、预测应用及其效果

(一)数据描述和预处理

本文以空气质量指标中的PM2.5浓度数据为例,说明空气质量多模态集成预测的实现过程。本文使用的空气质量数据来源于中国环境监测总站实时发布的信息,实验区域为兰州和南京两个城市。样本为2013年5月31日至2018年7月28日的兰州和南京日均PM2.5浓度数据,单位为微克/立方米(μg/m3),每个城市的样本量为1 558个,其中,兰州的浓度数据含25个缺失值,南京的浓度数据含26个缺失值。表1给出了两个城市PM2.5浓度时间序列的统计描述信息,图3和图4分别对应两个城市的PM2.5浓度时间序列原始数据情况,其横轴表示时间,纵轴表示污染物浓度(μg/m3)。

表1 城市PM2.5浓度值的数据特征

图3 兰州PM2.5浓度日均值(μg/m3)

图4 南京PM2.5浓度日均值(μg/m3)

从表1及图3、4中可以看出,PM2.5浓度具有含噪音、含极端值、高波动等特点。表1中较高的偏度值说明数据是非对称分布的,峰度是较高的正数则说明数据较标准正态分布更为陡峭。因此,在建模之前对数据集中的缺失值、离群点进行预处理是很有必要的。本文采用拉依达法剔除兰州实验数据的15个离群点和南京实验数据的26个离群点,运用三次样条插值法对原始缺失点和被剔除的离群点重新插值,以使数据平滑。

样本数据在实证分析中被分为三部分,即训练集(2013年5月31日至2018年5月31日)、验证集(2013年6月1日至2018年6月30日)和测试集(2018年7月1日至2018年7月28日)。其中,训练集用于模型训练,验证集用于调整模型所需参数、超参数,测试集用于对不同模型的表现进行对比。实验方法采用的是窗宽为30的窗口滑动法,以平衡长期历史数据和短期历史数据对目标值的影响,同时适应时序数据的特点,满足实际需求。

(二)建模过程和预测结果

就VMD-ELSTM-GS模型而言,本文的具体建模步骤分为六步。(1)数据预处理。本文采用拉依达法、三次样条插值法对原始数据进行离群点剔除和缺失点插值(如前所述)。(2)信号分解。本文采用VMD方法分解原始信号,采用经验模态分解(EMD)方法辅助确定VMD本征模态函数个数K的值,将原始信号分解为9个分信号(图5以南京数据为例给出分解后的结果)。(3)设置原始参数。本文对原始信号进行模型训练,采用 GS算法确定预测模块ELSTM的最优参数和超参数,参数寻找过程实时反馈结果的统计特征,剔除随机性强的参数组合。(4)单独预测。本文利用步骤(3)确定的参数作为预测模块的初始参数,对每个分信号进行数据集分割、模型学习和预测,即先将数据作差分处理,以缓解非平稳的问题,然后考虑时间序列的顺序特点,将数据转化为监督问题的可训练形式,同时将数据重塑为包含样本数、时间步、特征数的三维数据块,以适应LSTM神经网络的要求,最后将直接预测值作逆差分转换,还原为目标预测值。(5)预测集成。本文将每个分信号的预测值进行线性叠加,作为最终预测值。(6)窗口滑动。本文以最终预测值和原始信号的数据为对象进行模型评估,并将分信号测试集中的真实数据循环加入各自的历史数据集,不断更新真实值(同时去掉最远值),以预测目标日的PM2.5浓度。在参数调整阶段,计算预测值所需的历史数据集为训练集和验证集(窗宽30,实际取目标当日前30天的数据)。在模型对比阶段,计算预测值所需的历史数据集为验证集和测试集(窗宽30,实际取目标当日前30天的数据)。兰州和南京的PM2.5多模态集成预测模型(VMD-ELSTM-GS)预测结果如图6和图7所示。

图5 PM2.5浓度的VMD分解(以南京为例)

图6 兰州PM2.5多模态集成预测效果

图7 南京PM2.5多模态集成预测效果

需要说明的是,为了减少学习过程中的随机性影响,步骤(3)、(6)中涉及模型评价的过程都设计了循环算法,即重复10次取其误差均值。

图6和图7中的横轴表示时间,纵轴表示污染物浓度(μg/m3)。可以看出,本文的多模态集成预测模型直观来看具有较好的预测效果。当然,仅具有直观效果是不够的,以下问题仍需进一步探讨:利用组合模型进行预测,哪些成分有助于预测效果的改善?相比于其他模型方法,预测效果提升的程度如何?

(三)模型对比

1.预测能力。为了对比不同模型的效果,本文使用当前文献中常用的平均绝对误差(MAE)和均方根误差(RMSE)两个误差评价指标度量各模型的单点预测能力。这两个指标的定义如下:

其中,yt和y¯t分别表示t时刻的真实值和预测值,N表示测试集中的时间点个数,即测试集的大小。

利用以上评价指标,本文验证VMD-ELSTM-GS模型的有效性,探讨模型各个成分的作用。具体来讲,本文将VMD-ELSTM-GS模型与相关联的EMD-ELSTM-GS、EMD-LSTM-GS 两个“分解-集成”模型,以及与 ELSTM-GS、LSTM-GS、LSTM 三个单一模型进行对比。需要说明的是,由于单一模型的预测效果很大程度上会受到模型参数和超参数的影响,故用于比较的ELSTM-GS和LSTM-GS的参数、超参数与各“分解-集成”模型保持一致,都是由GS确定的优化参数。LSTM是无GS优化的网络,LSTM的优化参数包括样本数、节点数、迭代次数、批量大小和时间步。样本数与窗宽保持一致,节点数的范围为[30,70],迭代次数的设置是以探针法确定的范围[50,150],批量大小为样本数的倍数,范围为[120,210],时间步为1(隔日预测)。经网格搜索,LSTM-GS选定为[输入样本数,节点数,迭代次数,批量大小,时间步]=[30,50,100,200,1]。原始的 LSTM的参数设置为[输入样本数,节点数,迭代次数,批量大小,时间步]=[30,x,y,z,1]。弹网惩罚系数的经验范围为 [0,0.1],经探测最优参数范围为[0.005,0.015],通过设置步长为0.001的学习率逐步搜索,我们选定ELSTM的弹网惩罚优化系数为[0.01,0.01]。表2是利用不同的模型成分对兰州和南京预测结果进行的精度比较。

表2 PM2.5浓度预测的模型成分比较

从表2预测结果中均方根误差和平均绝对值误差两项评价指标的对比来看,通过对不同组成成分进行替换可以得到不同的组合预测模型,VMDELSTM-GS 模型较之 EMD-ELSTM-GS、EMDLSTM-GS、ELSTM-GS、LSTM-GS、LSTM 等模型具有更高预测精度的优势。具体来讲,预测精度提高的原因可以归结为:一是“分解-集成”框架下的混合模型表现优于单一模型;二是本文提出的多模态集成预测模型优于其他混合预测模型;三是基于VMD的混合模型优于基于EMD的混合模型;四是基于ELSTM的预测模块优于基于LSTM的预测模块;五是利用GS优化的网络模型优于原始的深度学习网络。

与成分不同的关联模型相比,VMD-ELSTM-GS在两个评价指标上的误差降低比率如表3所示。

表3 VMD-ELSTM-GS较之关联模型的误差降低比率(%)

2.预测效果。为了弄清VMD-ELSTM-GS预测模型与其他类型预测方法的优劣,本文对CNN-GS、EM-GS、CNN、EM四个模型进行了实证对比。其中,CNN为卷积神经网络,EM为指数平滑模型。在具体的参数设置上,CNN-GS的参数范围是经探针探测后再以网格搜索法进行搜索,优化参数设置为[输入样本数,过滤器,核,迭代次数,批量大小,时间步]=[30,64,3,100,100,1],EM-GS 的参数组合有限,通过全局搜索设置为[趋势类型,阻尼,周期,周期数,强制转换,偏差移除]=[′mul′,False,None,None,True,False]。无优化的CNN和EM利用经验选定。表4是不同模型下兰州和南京预测结果的精度比较。

表4 VMD-ELSTM-GS与其他模型的比较

通过与其他模型进行对比可以发现,本文提出的VMD-ELSTM-GS预测模型优于CNN、CNN-GS、EM-GS、EM等。相较于其他模型,VMD-ELSTM-GS预测模型在两个评价指标上的误差减少比率如表5所示。

表5 VMD-ELSTM-GS较之其他模型的误差减少比率(%)

需要说明的是,为了客观比较不同模型的优劣,本文的实验结果都是在重复10次取误差均值后得到的。实证结果表明,本文的多模态集成预测模型在实际预测中取得了较好的效果。

五、研究结论

污染物浓度预测是空气质量研究中的一项重要内容。基于“分解-集成”处理机制,本文提出了一种多模态集成预测方法,即VMD-ELSTM-GS预测模型。本文利用该模型对兰州和南京两个城市的PM2.5浓度进行了实证检验,结果表明,VMD-ELSTM-GS预测模型具有较好的预测效果。

需要说明的是,就空气质量时间序列数据而言,“分解-集成”是一种重要的多视角、多模态处理机制,它能协调处理时序数据的整体趋势、局部特征和噪声污染,有效降低时序数据的高波动、非平稳程度,在预测方面有着广泛的应用前景。

本文的研究结果是初步的,就时间序列“分解-集成”本身而言,数据的预处理方法、预测值集成方式和信号分解方式,都有可能影响预测精度和稳健性。就多视角方法而言,这种集成模式仍然存在诸多可扩展之处。

第一,空气质量的评价体系是由一系列污染物浓度及其衍生指标构成的,单一污染物的预测研究不足以刻画空气质量的总体特征,构建融合多种污染物的多视角预测模型,对于提高预测精度、保证认知的全面性均具有重要作用。因此,构建更广义的、包含多种污染物的多视角和多模态预测模型,是本文进一步研究的方向。

第二,城市空气质量监测点的数量是有限的,如何处理好监测区域以外地区的空气质量预测,是一个需要解决的现实问题。因此,今后应利用不同领域的数据融合(data fusion),如空气质量数据、气象数据和地理信息数据,开展协同训练(co-train),进行“时间-空间”视角的预测,建立广义的多视角模型。

注释:

①《环境空气质量监测规范(试行)》详见http://www.cnemc.cn/jcgf/dqhj/200801/t20080129_647269.shtml。

②《环境空气质量指数(AQI)技术规定(试行)》(HJ633-2012)详见 http://www.cnemc.cn/jcgf/dqhj/201706/t2017 0606_647274.shtml。

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!