当前位置:首页 期刊杂志

基于自适应惯性权重优化后的粒子群算法优化误差反向传播神经网络和深度置信网络(DBN-APSOBP)组合模型的短期旅游需求预测研究*

时间:2024-05-22

■ 陆文星 戴一茹 李克卿

合肥工业大学管理学院 合肥 230009

0 引言

21世纪以来,全球各地旅游业迅速发展,旅游已经成为人们生活的重要组成部分,旅游产业的地位亦日益增长[1]。在北京召开的2019年全国文化和旅游厅局长会议上指出,2018年我国旅游消费仍保持增长速度,全年国内旅游人数预计达55.4 亿人次,预计实现旅游总收入5.99万亿元[2],2019年春节期间,全国旅游总人数相比2018年增长了7.6%,人数达到4.15 亿人次,旅游逐渐成为我国国民经济的重要来源之一。其中,山岳型风景区凭借其独特的自然景观和深厚的人文历史吸引了国内外众多游客,但景区经常处于饱和阶段,经常引起景区拥挤、景区资源被过度消费等相关问题[3]。为了方便景区合理调度资源,提高服务水平,同时为了防止因游客拥挤、超载所造成的一系列安全事故的发生,通过建立科学合理的日客流量预测模型并对日客流量有着较为精准的预测就显得尤为重要。

图1 受限玻尔兹曼机

已有旅游客流量预测的研究模型包括计量经济学模型、传统时间序列模型[4][如自回归积分滑动平均模型(Autoregressive Integrated Moving Average Model,ARI‐MA)],浅层人工神经网络、支持向量机模型以及部分模型的组合等,Law[5]等利用人工神经网络建立预测模型,用于预测日本到我国香港地区的客流量,并将实验结果与由指数平滑等方法得到的结果相比较,证明了人工神经网络相比指数平滑法对数据的拟合程度更高,具有更好的预测效果;Pai[6]等利用遗传算法(Genetic Algo‐rithm,GA)去优化支持向量回归(Support Vector Regres‐sion,SVR)中的参数后建立遗传算法优化支持向量回归(Genetic Algorithm-Support Vector Regression,GA-SVR)预测模型,将实验结果与其他模型方法作比较,发现GA-SVR模型结果优于其他预测结果。但是目前已有的浅层学习方法在处理复杂非线性数据的能力有限,模型的泛化能力也不足,在训练过程中速度较慢且易陷入局部最优,无法很好地实现客流量的精确预测[7]。而深度学习方法则可以有效地规避这些缺陷。作为一种无监督学习的方法,深度学习更加接近人的思维,对于复杂数据的特征提取和拟合程度远远高于浅层学习算法,被广泛应用于图像识别[8-10]、植物病害识别[11]和网络舆情识别[12]等领域并取得了不错的效果,但在与旅游相关的交叉领域的研究还较少。常用的深度学习模型有卷积神经网络(Convolutional Neural Network,CNN)、深度自动编码器(Deep Auto Encoder,DAE)和深度置信网络(DBN)。其中,DBN的模型因具有结构简单,训练较易,收敛速度快等优点,被学者广泛应用于文字检测[13]、人脸及表情识别[14]、遥感图像分类[15-16]等领域。此外,目前已有的旅游需求预测研究仅从模型、影响因素的角度来提升其预测效果,很少有从后期误差修正的角度展开的研究,由于人工神经网络在处理一般的非线性特征上具有较好的性能[1],可以将其作为误差修正的方法加入到组合模型中。

21世纪以来,随着我国移动互联网技术的迅速普及,伴随着网络信息技术快速发展,网络已经成为人们生活中不可或缺的一部分。据《2018 中国旅游百度指数报告指出》,2018年1-10月的旅游日均搜索指数为1570万,相较于去年同比增长23%。同时有大量学者证实了通过利用网络搜索指数能够更好地建立预测模型,李晓炫[17]等利用网络搜索指数建立基于领先搜索指数合成和经验模态分解的误差反向传播神经网络(composition leading search index-Empirical Mode Decomposition-Back Propagation Neural Network ,CLSI-EMD-BP)预测模型,通过实验证明了该模型的预测精度相较于时间序列、误差反向传播神经网络(Back Propagation Neural Network ,BP)等基准模型更高;Keqing Li[18]等针对旅客流量建立了基于网络搜索指数的浅层神经网络预测模型,实验结果表明该模型相较于其他传统模型有更高的拟合度以及更准确的预测率。网络搜索指数是对网络用户在进行网络搜索时的搜索痕迹的记录和相关信息统计,旅游相关的网络搜索反映地是用户对该旅游目的地的相关意愿。相比只依靠原始内部数据的研究,网络搜索的广泛使用为科学研究提供了一种更为全面新颖的数据来源和新的人类行为分析的思路。在如今科技迅速发展的时代,旅游消费者在做旅行计划等一系列决策时往往会通过互联网搜索引擎来查询和收集信息,这样会使搜索数据与游客量之间形成一种相关关系,这种游客搜索的行为信息和相关关系在一定程度上能够反映游客的旅游意愿,以此为旅游研究学者们提供一个分析景区目的地游客量的信息基础,并将之用于旅游预测。

基于上述分析,本文在基于分析网络搜索指数的基础上建立有关风景区客流量的DBN预测模型,并将该模型用于实际的黄山风景区客流量的预测中,同时为了进一步提高预测精确度,本文对原始预测值进行了误差修正,选取改进后的粒子群优化误差反向传播神经网络(Back Propagation Neural Network optimized by Particle Swarm Optimization Algorithm,PSO-BP)神经网络模型对深度置信网络(Deep Belief Network,DBN)预测模型的初步实验结果进行误差修正,由于原始的粒子群算法(Particle Swarm Optimization ,PSO)容易陷入局部最优值,通过利用种群适应度值动态调整粒子的惯性权重以提高粒子收敛速度以及避免陷入局部最优,将深度学习和浅层算法结合建立组合模型并用于客流量的预测中,通过实验验证了该组合模型的有效性和可行性。

1 需求预测模型

1.1 深度置信网络

深度置信网络是由Hinton[19]等在2006 提出的通过叠加若干层受限玻尔兹曼机(Restricted Boltzmann Ma‐chine,RBM)构建的一种深度神经网络,DBN 模型的构建过程可分为无监督的学习过程和有监督的微调过程。

1.1.1 受限玻尔兹曼机(RBM)

RBM是一种生成随机人工神经网络,能够拟合输入数据的概率分布。RBM模型由两层构成,即可见层与隐藏层。其中,可见层即输入层,是由一些具有输入数据的神经元组成,隐藏层是由一些神经元和可见层的输出组成。RBM 的结构如图1所示,在RBM 模型中,只有可见层和隐藏层之间存在连接权值,可见层层内的神经元与隐藏层层内的神经元之间无任何连接。

RBM 的可见层和隐藏层之间的概率分布可以通过以下的能量函数关系式实现:

其中,vi是可见层的第i个神经元的状态,hj是隐藏层的第j个神经元的状态,ai是可见层vi的偏置值,bj是隐藏层hj的偏置值,Wij是代表vi和hj之间的连接权值。

根据式(1)可将(v,h)的联合概率分布为:

根据RBM 的结构特点,当确定隐含层状态时,可见层的神经元之间的激活概率是相互独立的,或者确定可见层状态时,隐藏层之间的神经元的激活概率在条件上是独立的。因此,第i个可见层节点的概率和第j个隐藏层节点的概率可以通过式(3)(4)求得:

RBM训练方法主要有梯度方法和对比散度方法,本文将用对比散度方法完成RBM 模型的训练过程。对比散度方法(Contrastive Divergence,CD)是在2002年由Hinton 提出的一种关于RBM 的快速学习方法[19]。采样过程中的加速方法可通过在吉布斯采样的k步之后获得样本,被称为CD-k,k表示采样次数,有众多研究表明,当k=1时,模型也能够达到很好的拟合效果,故一般采用一步吉布斯采样来拟合参数取值,对于参数a,b,W的更新公式如下:

图2 DBN模型

其中,at代表的是第t个步长时的可见层偏置,bt代表的是第t个步长时的隐藏层偏置,Wt代表的是惯性权重,ε表示的是学习率。

1.1.2 无监督的学习过程

图2是DBN 模型的建构,是由多个RBM 叠加而成的,包含一个输入层、k-1 个隐藏层和一个输出层。将数据输入给输入层后,由输入层和第一层隐藏层构成一个RBM,通过第一个RBM 训练后将得到的输出作为新的输入,并与第二层隐藏层构建一个新的RBM。反复上述过程直至训练结束,由此完成无监督的学习过程。

1.1.3 有监督的微调过程

在第一个阶段完成之后得到的只是初步的参数,为了进一步优化模型参数,将通过人工神经网络在输出层进行有监督的微调过程,通过人工神经网络的反向传播按梯度下降方向进行参数更新,这一阶段只是对参数进行微小的修正,以此完成DBN的训练过程。

1.2 改进的APSO-BP模型

BP 神经网络作为人工神经网络的一种,由输入层、隐含层、输出层3层构成,具有较好的处理复杂非线性问题的能力,因此被广泛用于交通、水利等方面的预测中。但传统的BP 神经网络收敛速度较慢且易陷入局部极值点,因此本文提出自适应惯性权重的粒子群优化算法,优化后的APSO-BP有效地改善了传统BP神经网络的不足,具有更优越的全局寻优能力。标准的PSO 算法的粒子寻优过程是通过反复迭代进行粒子速度和位置的更新以获取种群的最优值,粒子的速度和位置的更新公式如下:

图3 客流量预测模型流程图

其中,是粒子i经过第k次迭代时在第d 维空间的速度则是相对应的粒子的位置,w是惯性权重,c1、c2是加速系数,rand()是属于[0,1]之间变化的随机数,Pibest是第i个粒子在当前迭代的历史最优位置,Pgbest则是在第k次迭代的种群历史最优位置。标准的PSO算法的惯性权重更新仅依靠迭代次数而产生变化,不利于粒子种群多样性,本文利用自适应调整惯性权重的更新公式如下:

其中,wmin和wmax分别是w的下限和上限;fi是当前迭代次数的第i个粒子的适应度值;是当前种群粒子的平均适应度值;fgbest是当前种群粒子的最优适应度值。

上式中,w是依赖于粒子的适应度值与最优适应度值的差距进行非线性的动态变化。那么,首先克服了单纯依靠迭代次数而使得w只能进行递减运动的缺点,w可以根据自身的适应度值和最优适应度值之间的差值进行动态的增大或变小,当差值较小时,证明该粒子目前所处在最优范围内,此时赋予该粒子较小的w可以有效地让其在最优范围内进行更加细致的搜索活动,反之差值较大时则说明该粒子目前是远离最优值范围内的,此时则应增大w值,以使其能寻找真正的最优范围;其次,上式中的粒子是根据自身的适应度值来进行变化的,那么每一个粒子都有其各自的适应度值,即使是同一迭代周期的粒子也会因为其自身适应度值不同而拥有不同的值,就能够拥有多种可能性,有利于增加粒子种群多样性的同时也能尽快地寻求最优解;同时,该改进方法避免了粒子在迭代早期惯性权重最大,在迭代后期惯性权重最小的缺陷,使得迭代后期某些适应度值较大还未处于最优范围内的粒子能够通过较大的值增强其全局搜索能力,以突破自身的局限性重新寻找最优位置。结合上述优点以提高算法寻求最优解的效率和准确率。

2 基于DBN-APSOBP的组合模型预测算法

2.1 DBN-APSOBP组合模型

组合模型是Bates[20]等于1969年提出,之后被广泛应用于金融、经济等领域并取得了不错的预测效果。目前,组合模型在客流量短期预测中的应用研究还比较匮乏。对于旅游景区客流量而言,容易受到节假日、天气等外部因素的影响,并且如今是网络时代,依靠简单的内部数据已经无法满足对每日客流量较好的拟合程度,网络数据对游客行为研究起到举足轻重的地步,在高维的输入数据下,仅依靠深度学习模型无法完美地诠释客流量的数据特点。而在预测的残差部分,还包含一些非线性特征因素,此时利用深度学习模型会出现过拟合现场,所以就选择浅层模型进行拟合研究。因此,将深度学习模型与浅层学习模型二者结合,利用组合模型对节假日客流量进行建模预测,可以更好地拟合数据所有特征,提高预测精确度。

2.2 DBN-APSOBP组合模型预测方法

具体的组合模型步骤如下。

(1)网络搜索指数的分析。根据2.1 节从51 个关键词中选取了与客流量人数高度相关的核心关键词,并已经从相关性分析中选出了每个核心关键词的最佳滞后期;

(2)内部数据处理过程。除了网络搜索指数外,还应选取与客流量人数相关的一些内部数据,例如:昨日客流量、历史同期客流量、天气、温度等,进行分析后选取关联度高的特征变量,并对所有数据进行预处理,并将数据分为训练集和测试集;

(3)DBN 模型的构建。建立基于DBN 的旅游客流量人数预测模型,确定输入层节点数、隐藏层层数、隐藏层节点数和学习速率,并将模型的初始参数设置为随机较小化;

(4)DBN 模型的训练。利用训练集的特征向量作为输入对DBN模型进行无监督的学习和有监督的微过程,神经元的状态按照式(3)(4)进行计算,参数的调整按照式(5)(6)(7)进行更新;

(5)DBN 模型的预测。将测试集的数据作为训练后的DBN模型的输入,并将之用于预测;

(6)PSO-BP 模型的修正过程。将实际值与DBN 模型得到的预测值对比得到一个误差值,利用PSO-BP 模型对误差序列进行建模修正,得到误差序列的修正值。

(7)实际预测值的获得。将DBN 模型的预测值和PSO-BP 模型的误差修正值几何相加就是实际预测值。整个预测流程如图3所示。

3 实验分析

本文实验所选数据是黄山风景区的数据,黄山风景区是国家5A 级风景区,黄山风景区作为我国山岳型风景区的代表,凭借其独特的地质地貌和丰富的景点名扬中外,每年都会吸引上千万的中外游客。由此,在吸引游客旅游的同时也会因为其自身承载力导致发生游客拥挤和安全等相关问题,特别是在节假日期间,相比平常日游客会突然发生急速增长,对于游客和景区管理都造成了很大的影响,同时在我国山岳型风景区网络搜索关注度排行榜中,相比其他一些风景区,黄山的网络搜索指数处于遥遥领先的地位。结合上述两点,本文将以黄山风景区为例,建立基于网络搜索指数和DBN-AP‐SOBP 的预测模型对黄山客流量进行预测,同时也建立单个BP、支持向量机(Support Vector Machine,SVM)模型,并将组合模型结果与单个DBN 模型、BP 模型、SVM模型结果进行对比分析。

3.1 数据来源

本文实验数据选取的是来自黄山风景区2011年1月-2018年12月共8年的每日客流量,本文选取2011-2018年的节假日客流量作为研究对象,其中数据包括:每日的客流量人数、历史每日总人数、14 个网络搜索指数、是否处于周末和天气——由于在节假日期间,除去极端天气外,其他天气对游客出行的影响效果并不大,因此将天气分为(0,1)矩阵,天气、周末以虚拟变量的形式加入模型,共21 个变量,每个变量共有2922 个数据,并将数据按照7:1 的比例分为训练集和测试集。

3.1.1 网络搜索指数分析

网络搜索分析的基础就是关键词选择,关键词选择的将直接关系到最终研究结果,目前普遍使用的有3 种方法:直接取词法、技术取词法和范围取词法[21]。而目前现有的研究对于关键词的提取还没有统一的标准,关键词的选取主要受到其研究内容的限制。本文是对黄山风景区游客量进行预测,因此采取的是范围取词法和直接取词法二者综合的方法,通过上述方法依据旅游目的地等相关内容选取了包括“黄山”“黄山风景区”“黄山攻略”等共51 个关键词。为了进一步验证选取的51 个关键词与游客量人数的相关性,利用统计产品与服务解决方案(Statistical Product and Service Solutions,SPSS)软件分别对这51 个关键词的百度指数与黄山风景区每日客流量人数进行相关性分析,同时考虑到游客在出游与网上搜索之间有一定的滞后性,计算客流量总数与所有网络搜索关键词1~10天提前期的皮尔逊相关系数,关于提前期的皮尔逊相关系数分析结果如表1所示,由于篇幅关系,只展示部分关键词的滞后期分析结果。相关性在0.7 以上具有强相关性,0.4~0.6 是中度相关性,0.3 以下为弱相关性,因此就将最后选取的具有中度以上相关性的14个关键词的相关性结果显示如表2所示。

表1 关键词相关性滞后期分析结果

表2 关键词相关性分析结果

表3 不同历史总人数与实际总人数的关联度

3.1.2 内部数据分析

(1)历史每日总人数

通过SPSS 软件对日客流量和历史每日总人数进行相关性分析,历史每日总人数可分为:昨日客流量人数、历史同期客流量人数、上周同期总人数、上上同期总人数,关联度分析的结果如表3所示,因此选择关联度系数大于0.4的历史每日总人数作为输入变量。

(2)天气

论文将天气以虚拟变量的形式作为输入变量:

X1=1代表暴雪、大雪、中雪、大雨、暴雨、雷阵雨、阵雨等恶劣天气,0代表晴、阴、小雨等非恶劣天气。

(3)周末

论文将周末以虚拟变量的形式作为输入变量:

X2=1代表工作日,0代表周六或周日。

3.2 评价标准

本实验对于模型预测结果的评价指标采用的是平均绝对百分误差(Mean Absolute Percentage Error,MAPE)——各个实验预测值和平均值之间的偏差的绝对值的均值。MAPE 计算的是偏差的绝对值,从而可以有效防止正负偏差的相互抵消,较为直观、准确的反映模型预测的精确度,MAPE的计算公式如下:

3.3 合成方法

对于DBN 模型得出的初始预测值和PSO-BP 模型得出的误差修正值的合成方法采用加权求和法:

其中,y1代表由DBN 模型得出的初始预测值,y2代表由PSO-BP 模型得出的误差修正值,y代表最终的合成预测值,a、b是常数。本文经过多次实验验证对比之后,a=b=1。

3.4 实验结果分析

实验将2011-2017年共7年黄山风景区的每日客流量相关数据作为训练集,对建立的DBN 模型进行训练,将2018年所有客流量相关数据作为测试集,用于已经训练好的模型做预测,整个输入向量是一个21×2922 的矩阵。

图4 4个预测模型MAPE对比图

表4 模型预测结果对比表

本文实验分为两部分,DBN模型是以Python为仿真平台进行建立预测,APSO-BP 模型是在MATLAB2017(a)的仿真平台进行实验。在对DBN 进行多次调试之后,将RBM 隐含层层数设置为3 层,隐含层节点数设置为30-19-8,预测训练阶段RBM 的学习速率为0.0001,微调阶段的学习速率为0.005,迭代次数为5000;改进的PSOBP 修正模型中粒子规模为64,种群迭代次数为500,惯性权重的取值范围是[0.25,0.95],BP 神经网络结构是5-9-1。实验后4 个模型测试集的MAPE 值的结果如表4、图4和表5所示。

根据表4和图4可以看出,DBN-APSOBP 组合模型相比其他3个单一模型在全年各月的MAPE几乎都是最小,组合模型的最大预测误差是41.18%,最小预测误差是5.68%,比其他3 个单一模型的最大最小误差大致都降低了5%,有了明显的改善。黄山是山岳型风景区的代表,全年有淡旺季之分,一般4-10月处于旺季,剩下5个月是淡季。可以由表4中4 个模型结果对比看出,本文的组合模型在旺季误差都保持在20%以下,尤其是在7、8月份,由于毕业旅游季及暑期旅游高峰提升明显,最小误差降低到了5%左右,而在9月份后可能由于6-8月份的客流量呈现持续平稳状态而9、10月份的客流量集中在9月底前后,并且游客量会受国庆节7 天假日的影响呈现剧增情况,导致误差会出现较大幅度的提升,但总体旺季的平均误差为13.31%,而其他3 个单一模型的误差都超过了20%,相比之下,旺季的DBN、BP、SVM 预测误差分别为:22.65%、24.74%、24.28%,组合模型的旺季平均误差有了明显的降低;在11月至次年3月期间,黄山风景区由于受到季节、温度等其他因素,游客量变化会出现不稳定状态,因此模型预测的精度相较于旺季来说都出现明显的增幅,4 个模型淡季平均MAPE 值分别是28.32%、33.80%、40.65%、39.90%,组合模型的误差保持在28%,但其他3个模型平均误差均超过了30%,在淡季期间,论文提出的组合模型的实验误差相较于其他3 种模型也有小幅度的降低。从实验结果分析可得无论淡旺季,组合模型的预测精度相较于DBN 模型、BP模型和SVM模型都有明显的改善。

表5 模型全年预测误差均值

表5是4个模型的全年误差均值,可以看出,DBN 模型相对于浅层学习算法BP模型和SVM模型的预测误差下降了4%左右,深度学习模型相较于浅层学习算法对于模型的拟合程度更好,预测误差的精确度也更高,而DBN-PSOBP 组合模型相较于单一的DBN 模型的预测误差又下降了8%左右,并且只有组合模型的误差保持在20%以内,这是由于深度学习相较于浅层学习能更好地把握数据复杂特征、拟合数据变化情况,并利用PSOBP 模型进行误差修正又可进一步提取残差中的数据特征,以此提高预测的模型拟合效果,通过结果可见组合模型更能够反映客流量的特征,具有更强的稳定性。

根据对比分析可以得出,单一的浅层模型对于客流量数据模型的拟合程度最差,DBN 其次,而DBN 和PSOBP 的组合模型误差最小、拟合程度最高。原因是:其一,在高维度数据下,深度学习相较于浅层学习而言能够更好地反映数据特征,较为精确地建立高拟合度的预测模型;其二,单一模型很难完美的反映数据的非线性特征,容易产生较大误差,并对误差有所忽略,而组合模型则可以较好地分析误差中存在的残余非线性特征,二者结合才能建立一个较为稳定和准确的预测模型。

4 结论

旅游业在经济发展中逐渐占据更加重要的地位,准确的预测模型能够很好地反映客流量变化情况,及时掌握客流量变化情况对风景区环境和资源的保护有着举足轻重的作用,因此对短期客流量预测模型的研究有着十分深远的意义。本文以著名山岳型风景区——黄山为例,探讨了目前旅游需求方面的研究方法,并根据时代发展结合了百度搜索情况,加入搜索指数作为预测模型的自变量,同时根据黄山客流量的非线性、复杂及动态性等特点,建立了包含浅层学习算法和深度学习的DBN-APSOBP 组合预测模型。实验结果表明,深度学习模型相较于浅层学习算法具有更好的拟合效果,而组合模型相较于单一的深度学习算法对于数据的特征把握更加准确,能够实现更加精确的预测效果。当然,本文对于影响客流量的外部数据研究还不够,数据处理还不够复杂,模型的创新性也有待进一步研究。但总体而言,本文通过实验验证了深度学习DBN模型的有效性以及组合模型的准确性,为以后客流量研究提供了新的思路。

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!