当前位置:首页 期刊杂志

基于多尺度通道融合学习的时空数据预测模型

时间:2024-05-04

孙 蓉,李 强,吴盛军,刘伟伟

(1. 国网江苏省电力有限公司电力科学研究院,江苏 南京 211103;2. 南京理工大学自动化学院,江苏 南京 210094)

1 引言

随着当前社会信息化和智能化的蓬勃发展,融入日常生产生活的海量传感节点和网络接入设备产生了大量的传感数值、运行日志及多媒体数据,其中存在着大量的时空数据[1],即从多个空间上有关联的来源获取的多维时间序列数据,如风电场各机组出功数据、多观测点气象数据、城市交通流量数据、网络节点通联数据以及疾病区域传播病例数据等。这些数据通常为物理空间、网络拓扑或通联图谱上临近的观测对象在时间的推移下不断生成,每个观测对象生成的数据均为时间序列,这些时间序列的基本要素类型可能为同质也可能为异构。时空数据的最大特点在于其各观测对象的时间序列内部存在时间上的关联,其各序列之间通常也存在着复杂的时空混合关联特性,这给其建模提出了严峻挑战。鉴于时空数据的普遍存在性及其在能源、交通、医疗、安全等领域的重要价值,对其内生关联特性进行挖掘从而对其演进趋势进行预测有着重要的现实意义。

时空数据分析属于时间序列分析[2-4]在空间维度的拓展,其不再聚焦于对个体时序数据进行独立分析,而是综合时间和空间维度对群体多时序数据进行联合分析。需要同时提取序列内的时域关联性表征以及序列间的空域关联性表征,其建模面临的主要困难在于数据的时空分辨率不断提高带来的维度提升以及高度复杂的非线性关系导致的拟合难度大等问题。

对预测问题建模的核心在于能够有效表征关联性的隐变量提取,时间序列分析中通常采用统计模型或支持向量机、人工神经网络等机器学习方法。然而这些方法通常高度依赖于人工知识引导的特征工程,即需要基于专业知识及大量试验来完成原始数据向其有效特性表征的映射。这对于时空数据所存在的高度复杂内生关系而言是不可行的,且这些传统方法通常难以有效捕获高维非线性特征,因此对于当前形势下的时空数据预测任务并不能有效发挥作用。

近年来以卷积神经网络(Convolutional Neural Network,CNN)和循环神经网络(Recurrent Neural Network,RNN)为代表的深度学习模型以其在序列关联性挖掘及高维非线性映射方面的能力在很多领域引起了重要变革,其利用非线性模块的排布对输入信号逐层提取特征从而摆脱了对人工提取特征的依赖,克服了传统特征工程方法的缺陷。CNN常用于数据的空间特征挖掘,其权值共享设计能够显著减少网络参数,抑制深层模型的过拟合问题,其与时间维度结合的三维形式,即3D-CNN[5],最早被应用于视频分析中,可以同时捕获数据的时间和空间维度特征,是一种可用于更广泛的时空数据建模的方法。

与CNN不同,RNN则通常用于提取时序数据的特征,其变体形式门控循环单元(Gated Recurrent Unit,GRU)在继承其序列内依赖关系挖掘能力的同时,还可解决传统RNN因序列过长而导致的梯度消失、训练时间长和过拟合等问题。卷积门控循环单元(Convolutional Gated Recurrent Unit,ConvGRU)[6]则针对GRU无法有效保留时空数据的空间特征这一局限性,将卷积与门控循环单元相结合,具备了同时对时序进行建模且挖掘空间关联的能力,也是一种可以应用于时空数据学习的神经网络结构。与3D-CNN以及ConvGRU将卷积与循环单元结合的思路相近,时间卷积(Temporal Convolutional Neural,TCN)网络[7]通过在卷积层之间建立因果关系,达到灵活的感知野以及并行处理能力,对时空数据也达到了较好的建模效果。此外,近期也有研究者通过二维卷积神经网络与门限循环单元级联的方式对时空数据进行分阶段学习[8],先使用多个卷积通道逐帧提取二维空间特征,再使用双向GRU对提取到的空间特征进行时序建模,以捕获时空关联特性。

尽管当前结合CNN与RNN的深度学习方法在解决时空数据预测问题中已经发挥了重要的作用,但是现有时空数据学习方法在多时间尺度关联、多模型融合以及时序学习单元的优化等方面尚有待进一步加强。

本文针对上述问题,以空间关联的同类对象获取的同质化时间序列数据这一最常见的时空数据为研究对象,针对时空数据普遍存在的中长时间尺度下的相对稳态特性以及小时间尺度下的动态特性,提出了一种覆盖多时间尺度且融合多通道学习模型的时空数据预测算法。基于所设计的轻量卷积门控循环单元抽取数据中长期趋势,基于三维卷积神经网络抽取数据的短期变化,将这两个通道的表征融合后解码得到多个观测对象的预测结果。实验部分则聚焦于电力领域的时空数据,以风电场的实测多机组风电出功数据以及开源的气象监测风力数据为实验对象。风能相关的数据在时空数据中具有极强的代表性,其各点位间有复杂的影响机理且在时间尺度上也有较强的动态性,其预测模型对于其它类型的时空数据学习有着较好的参照价值。

2 时空数据预测问题的描述

不失一般性,假定时空数据来源为N个物理空间、网络拓扑或通联图谱中临近的位置或节点所对应的实体对象A1,…,AN,每个对象的时间序列长度为T,生成的数据维度为M,当M=1时意味着每个对象的序列为一个长度为T的向量。任意时刻t∈{1,…,T}时,各节点构成的空间数据可以表示为一个N×M维的矩阵Xt∈N×M。

(1)

X={X1,X2,…,XT}

(2)

若要预测目标时刻T+τ这N个对象的状态XT+τ,考虑到时空数据在不同时间尺度下存在的稳态和动态特性差异,以及关联性通常随时序长度增加而减弱,需要对其进行多尺度联合学习。不失一般性,以两种时间尺度为例,本文将输入预测模型的时空数据X划分为不同时间尺度下的两部分:临近短期观测序列XS和中长期观测序列XL,其它更多的时间尺度情形可由其拓展得到。

(3)

式中,d和c分别为短期序列XS和中长期序列XL的序列长度,q为中长期序列的观测步长。则基于多时间尺度的预测问题可由下式进行描述。

(4)

若各对象间的空间关联性已知或可经由人工知识分析得到,如将其两两之间的关联性由一个关联系数矩阵W∈N×N进行表示,则时空数据预测即是学习一个模型F。

F:d×N×M×c×N×M×N×N→τ×N×M

(5)

然而,在大多数现实场景中,很难采集或准确量化各对象之间的空间关联性,因此需要在模型中利用具备空间特性学习能力的单元去进行学习。值得指出的是,当M=1时,时空数据X可以由一个T×N维矩阵进行表征,其是最常见的时空数据类型,本文的实验数据即为该类型。当N=1时,时空数据的预测问题则退化为单点时间序列的预测问题。

3 多通道融合学习的时空数据预测模型

基于上一节的时空数据预测问题建模思路,本节提出一种多通道融合学习的时空数据预测模型,其覆盖临近短期时间尺度和中长期时间尺度,多通道则分别对应着两种尺度下的学习模型。针对中长期时间尺度,通过将轻量化GRU单元引入卷积门控循环单元中来设计一种轻量卷积门控循环单元(Lightweight Convolutional Gated Recurrent Unit,LCGRU),从而有效降低其对积累历史数据的学习复杂度,并更高效地挖掘中长期稳态特性。针对临近短期时间尺度,则通过堆叠的3D-CNN来对其进行全局的时空关联性捕捉,以实现临近时间样本的精细化特征挖掘。通过对这两类通道的输出特征进行融合后结合全连接层来得到各对象的预测结果。所提的多通道融合学习的时空数据预测模型的结构如图1所示,其主要包括三个核心组件:基于3D-CNN的临近短期时空特征学习模块、基于LCGRU的中长期时空特征学习模块,以及多通道特征融合输出模块。

图1 多通道融合学习的时空数据预测模型

3.1 基于3D-CNN的短期时空特征学习模块

临近短期数据与预测结果的关联性通常更强且其序列长度相对有限,因此可以采用3D-CNN来有效捕捉其全局细粒度时空特征。其能够从小区域出发,共享关联对象的空间信息,学习时序前后关联性,有效提取临近短期数据的小尺度动态特性。

卷积神经网络提取特征的关键在于卷积操作。常用的二维卷积和三维卷积之间的差异如图2所示。与三维卷积相比,无论是二维卷积还是二维多帧卷积,其均只能得到二维输出矩阵,时间信息被完全压缩。只有三维卷积得到的是三维时空特征张量,输出的特征图同时包含了时间和空间信息。三维卷积运算如式(6)所示。

(6)

图2 二维卷积和三维卷积操作对比

由于深层卷积操作能够将浅层卷积学习的局部特征进行进一步学习从而获得更抽象的特征,且精简的三维卷积可以减小过拟合风险。本文构建了两个精简3D-CNN模块堆叠的临近短期时空特征学习模块,Conv-1(Conv3D-1,ReLU1)和Conv-2(Conv3D-2,ReLU2)。可以将临近短期时空数据的学习过程描述为

(7)

3.2 基于LCGRU的中长期时空特征学习模块

中长期时空数据能够表征时空数据在大时间尺度下的时序特性,但是在实际场景中其数据量会不断积累,且其较长的序列长度限制了3D-CNN的使用,本文设计了一种轻量卷积门限循环单元LCGRU来对中长期时空数据进行建模,其是将轻量化门限循环单元结构[9]加入传统卷积门限循环单元中,可以降低训练复杂度并提升时序建模能力。

GRU作为RNN的变体,其利用门机制实现对时序数据的建模能力,但是其全连接的方式,无法对空间信息进行有效表征,ConvGRU是用卷积结构替代其全连接结构,其可同时捕捉时间和空间关联特性,其工作机理如下:

(8)

为了提高ConvGRU性能并降低复杂度,如图3所示,本文提出的LCGRU仅使用先前隐藏状态以及偏置参数,其更新门和重置门状态可由式(9)描述。其能够在保证捕获中长期时空依赖的前下,减少训练参数,进一步提高模型训练效率。

图3 构造LCGRU的轻量GRU单元结构

(9)

将中长期时空数据的学习过程描述为

(10)

3.3 多通道特征融合输出模块

基于上述模块分别对临近短期时空数据和中长期时空数据完成特征提取后,对两通道特征进行融合学习。将两通道特征平铺为一维向量并进行拼接后,使用全连接层将学习到的特征映射到样本标记空间,其把局部特征重新通过权值矩阵组成完整的特征图,减少由于特征的相对位置因素对预测造成的干扰,最后一个全连接层的神经元数目设置为预测对象数量,即可实现多对象预测,该输出模块可由下式进行描述。

(11)

4 实验结果与分析

为了对本文所提的时空数据预测算法进行验证,本文选用两类典型的时空数据作为实验数据,包括风电场多个风电机组实测出功以及全球气象观测点的多点位风速。地理临近空间的多点位风电或风速是时空数据中最典型的类型之一,其预测模型对于其它类型的时空数据学习有着较好的参照价值。

4.1 数据集介绍及预处理

本文实验所利用的数据集如下:

1)我国东部某沿海城市的海上风电场实测的多风机发电功率,该风电厂共19个风电机组,观测数据来源于2021年4月份的多天观测结果,共包含47294帧数据,时间分辨率为15秒,按照9:1比例将数据划分为训练集和测试集。

2)美国爱荷华州的多点位风速。该数据由地表自动观测系统(Automated Surface Observing System,ASOS)导出。数据的观测时间为2020年全年12个月,共15个观测站,采样的时间分辨率为10分钟,共包括41460帧数据,同样按照9:1比例将数据划分为训练集和测试集。

值得指出的是,这两个数据集都与风力相关,且在时间跨度和观测尺度上有着不同的代表性,结合现实地理环境中风力由于惯性和地形影响在时间和空间维度上形成的典型复杂关联,本文所选用的两个数据集能够较好的评估模型的预测性能和场景适应性。

对所选用的数据集进行预处理,本文使用最近邻线性插补算法插补缺失数据。由于数据量纲和取值范围存在差异,为加快模型训练,提高预测效果,对上述数据集进行如下标准化处理

(12)

式中v和v′分别为某类数据原始值和标准化处理后的数值,vmax和vmin则分别为该类数据的最大值和最小值。

4.2 评价指标

为了全面评估所提预测算法的预测性能,使用平均绝对误差(Mean Absolute Error,MAE)、均方根误差(Root Mean Squared Error,RMSE)和确定系数(R-Square,R2)对预测模型进行评价。误差分析是检验预测模型是否有效的重要手段,平均绝对误差和均方根误差都可以对预测结果的准确性进行评价,其均是越低越好。采用确定系数来表示预测模型的好坏,正常取值范围为[0,1],结果越接近于1,代表模型对数据的拟合效果越好,这个模型的解释能力也越强。各性能评价指标可以表述如下

(13)

(14)

(15)

4.3 参数设置与对比算法选取

本文所提算法是融合3D-CNN与LCGRU的多尺度通道融合学习方法,将其记为3DC-LCGRU。使用均方误差(Mean Squared Error,MSE)作为损失函数。算法利用PyTorch框架实现,通过Adam优化算法对模型进行训练,学习率为0.001,迭代40次。所提算法中三个子模块的网络结构参数设置如下:

临近短期特征学习通道包括两个三维卷积模块,卷积核数目分别为4和8,卷积核大小分别为6×1×6和3×1×3;中长期特征学习通道具有两个LCGRU单元,隐含层单元个数为32,卷积核大小为1×1;多通道特征融合输出模块使用全连接网络,设置一层隐含层,其维数针对不同数据集按2.3节所述进行设定,输出层为预测对象个数,在本实验中取19(风机个数)或15(气象监测点个数)。

为了综合衡量所提3DC-LCGRU的预测性能,将其与近两年能完成同类型时空数据预测任务的典型算法进行对比。包括文献[7]中的时间卷积模型TCN以及文献[8]中的结合2D-CNN与GRU的级联时空预测模型2DC-GRU,这两个对比算法除输入数据维度外,其算法参数与论文中所述保持一致。

4.4 性能比较与分析

针对不同采样时间尺度的数据集分别进行多时长的预测实验。对于数据集1,由于风机出功数据采样周期较小,选定30分钟作为临近短期时间窗口来对未来3~5分钟的19个风机出功数据进行滑动预测,中长期窗口大小为3小时;对于数据集2,由于其样本时间跨度为1年,使用前一天观测数据作为中长期数据,以前3小时数据作为临近短期数据,对未来10~30分钟的各点位风速进行预测。表1和表2为上述两个数据集下不同算法的预测性能对比结果。

表1 数据集1的实验结果

表2 数据集2的实验结果

由表1和表2可知,在不同数据集以及不同的预测时长下,本文所提的3DC-LCGRU的MAE和RMSE均低于2DC-GRU和TCN。在实测风电出功数据集中,其在未来3分钟和4分钟的预测结果对应的RMSE相比2DC-GRU降低约15%,相比TCN算法降低1.5%~5%不等。对于未来5分钟的预测结果,算法间的性能差异相对缩小,所提算法的RMSE相比2DC-GRU降低约9%,相比TCN算法降低约2.2%。随着预测时长的增加,各模型的误差指标MAE和RMSE均随之增大。此外,所提3DC-LCGRU的确定系数R2也高于其它两个对比算法,随着预测时长的增加,确定系数随之减小,这是因为预测时长越短,预测模型对数据的拟合效果越好,这与理论上的时序特性是一致的。

在多站点风速数据集中,数据的采样周期大幅提高,本文所提算法的优势相比较于数据集1更进一步扩大,这是由于其中长期通道在时间跨度较长的数据下达到了更好的时空规律抽取能力。在10分钟、20分钟和30分钟的预测时长下,所提算法的MAE比2DC-GRU算法分别降低约20%、16%和12%,RMSE分别降低约16%、13%和10%,相比于TCN,其MAE和RMSE也有约7%~12%不等的降低,确定系数则提升约0.03~0.06不等。

综合来看,本文所提方法相比于其它两种预测方法具有较显著的预测准确度提升,三种预测算法的预测准确度均随着预测时长的提升而下降。在三种预测算法中,2DC-GRU预测性能弱于TCN和本文所提的3DC-LCGRU算法,这是由于该算法采用了先后学习时空特征的两阶段策略,在很大程度上弱化了时空信息的统一关联。此外,虽然TCN可同时捕捉时空信息,但本文所提的3DC-LCGRU利用两个通道的各自优势分别捕获不同尺度的时空关联特征,相比于TCN可以表达出更加自适应以及丰富的时空特征来完成预测任务。

5 结论

本文提出一种多尺度通道融合学习的时空数据预测模型3DC-LCGRU,该模型可以充分利用数据的时空信息,增强对数据特征的多维多尺度提取能力。利用堆叠3D-CNN和设计的LCGRU的自动表征能力,分别捕获数据的临近短期时空特征和中长期时空特征,通过特征融合实现多输出预测。在实测及开源时空数据集上的实验结果表明,相比较于两种新型时空数据预测算法,本文所提算法能够有效提高预测的准确率。

尽管本文方法能够有效适应当前最常见的由三维张量表示的时空数据,然而在现实场景中,还存在着各对象类型异构的时空数据或无法直接表征为张量形式的时空数据,这些时空数据的预测问题是值得未来进一步研究的内容。

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!