基于ARIMA与NARX的北京入境旅游人数预测比较研究

时间：2024-07-29

胡涵清，沈鹏，张泽圣，万妮

(北京信息科技大学经济管理学院，北京 100192)

0 引言

在中国走向世界、世界了解中国的大背景下，北京作为中国的首都，近年入境旅游业发展迅速，以入境旅游历史数据为基础，选取合适的模型进行北京市旅游需求规模的准确预测，具有重要意义。

从20世纪60年代开始，国内外学者大量研究旅游人数预测，理论趋于成熟[1]。对于入境旅游人数的预测，吴良平等[2]基于带虚拟变量的ARIMA模型研究了入境游客在中国的动态分布情况并做出预测。俞金国等[3]基于ARIMA模型对非典时期以后中国入境旅游人数复苏情况进行了估计预测。陈鹏等[4]基于ARIMA模型对安徽省当地入境旅游人数进行预测。李乃文等[5]基于修正ARIMA模型预测中国入境旅游人数。邓祖涛等[6]使用BP神经网络预测中国入境旅游人数。孙燕平等[7]对游客来源预测的神经网络方法做了介绍。王琳等[8]基于Elman神经网络对中国入境旅游人数进行动态预测。雷可为等[9]基于BP神经网络方法和ARIMA组合模型对中国入境游客人数进行预测。周成等[10]基于X-12-ARIMA和HP滤波法预测分析上海入境旅游市场的发展趋势和程度。

对于旅游预测模型的比较，Cho Vincent[11]用均方根误差(RMSE)与平均绝对百分比误差(MAPE)作为指标，对神经网络、单变量自回归滑动平均结合法以及指数平滑法相比较，发现神经网络的预测结果最好。Low Rob[12]发现使用神经网络预测非线性的游客行为的预测结果，比线性趋势预测方法、自回归滑动平均结合法及指数平滑法的预测结果，所计算的累计绝对误差(AE)更低，均方根误差(RMSE)更低。任来玲等[13]从定性方法、定量模型、人工智能方法3个维度对旅游预测模型进行分类介绍。

在入境旅游人数预测方面，学者侧重于使用ARIMA模型、神经网络以及使用混合模型。ARIMA模型预测过程侧重于拟合历史数据的线性关系，而神经网络预测过程侧重于学习数据的非线性规律。本文基于ARIMA模型和NARX 神经网络，分别对北京市入境旅游人数进行预测，进而比较模型预测结果，为北京市入境旅游人数预测的模型选择提供一定的借鉴，为北京市旅游决策和管理提供参考。

1 模型建立

1.1 数据来源

北京市统计局职能之一是对区域发展及产业发展情况进行监测评价，旅游行业的监测是统计局的一个工作方向。本文使用的北京市1978—2018年入境旅游人数从北京市统计局网站中获得(北京市统计局:http://tjj.beijing.gov.cn/tjsj/ndtjzl/2018ndtjzl_6949/ly_6698/201902/t20190220_417110.html)，详细记录了历年的入境旅游人数、来源分布、变化趋势等数据。如表1所示。

1.2 预测过程

1.2.1 ARIMA模型预测

自回归滑动平均模型 ARIMA(p,d,q) 是研究时间序列的经典预测模型，以自回归模型(AR模型)与滑动平均模型(MA模型)为基础，包括自回归过程(AR)、滑动平均过程(MA)、自回归滑动平均过程(ARMA)以及ARIMA过程。Eviews8是用以处理时间序列数据的时间序列软件包。通过使用该软件来进行ARIMA模型的预测及ADF检验、自相关与偏相关分析等。ARIMA模型的构建过程如下：

表1 北京市1978—2018年入境旅游人数万人次

1)检验时间序列数据的平稳性。从原始时间序列data看，如图1所示，数据上升趋势明显，但1989年、2003年受特定原因影响，旅游人数锐减，是显著非平稳序列。故先对1989年和2003年的数据进行异常值处理，以使研究真实有效进行。采用线性插值法得到1989年的入境旅游人数为110.2万人次、2003年的入境旅游人数为312.9万人次，更新原始时间序列。

2)确定阶数d。

①对数变换，减小数据波动。进行对数运算seriesy=log(data)，将原始序列data变换为具有线性趋势的序列y，然后进行差分处理。

②差分运算，消除趋势性。利用Eviews8软件对时间序列数据y进行ADF检验，如图2所示。可以看出，ADF数值(-2.000 043)比下面的5% Test critical value(-3.526 609)数值大，表明接受存在一个单位根的原假设，序列数据是不平稳序列数据。为得到其非平稳的阶数d，需要对其一阶差分序列数据和二阶差分序列数据进行ADF检验。

对y序列进行二阶差分以后，ADF检验结果如图3所示。ADF的数值为-4.124 047，小于1% Test critical value数值(-3.653 730)，R-Squared值为 0.773 854，Durbin-Watson stat值为2.020 738，故可以拒绝单位根假设，表明经过二阶差分以后的序列y是平稳序列，满足ARIMA模型建模的基本要求。所以将ARIMA(p,d,q)模型中阶数d确定为2。

3)模型的定阶。在Eviews8对话框输入seriesx=y-y(-2)，生成经过二阶差分运算后的新序列x，从时间序列x图形上看，其也是平稳的序列，表明可以对时间序列x进行ARIMA模型分析。对新时间序列x分析自相关性与偏相关性，如图4所示，进而得到ARIMA(p,d,q)模型中p,q阶数。

分析可得，自相关1阶截尾，故先设定q值等于1。针对原始时间序列data运用Eviews8尝试不同的模型拟合，ARIMA(1,2,2)模型拟合结果如图5所示。

4)模型的检验。利用Eviews8对建立的ARIMA(1,2,2)模型进行估计，由图5可知，变量系数估计值均小于0.05，在5%显著水平下均显著。残差分析结果如图6所示，Q统计量的P值均大于0.05，并且ACF和PACF均没有显著异于零，表明残差序列为白噪声序列，ARIMA(1,2,2)模型的信息提取比较充分，整个模型拟合效果显著有效。

5)预测。在Eviews8中选用“Forecast-Static forcast”方法对建立的ARMA(1,2,2)模型进行样本内预测，结果如图7所示，Theil不相等系数为0.041 572，其中协方差比例为0.946 726，表明模型的预测结果比较理想，ARIMA模型预测具体数值见表2。

表2 基于ARIMA模型的北京市入境旅游人数预测值万人次

1.2.2 NARX 神经网络预测

按照北京市入境旅游人数的实际情况，创建3层 NARX 网络模型，由一个输入层、一个隐含层、一个输出层组成。

1)数据的标准化处理及网络训练

利用式(1)对1978—2018年的北京市入境旅游人数统计数据进行标准化处理。

(1)

2)预测效果分析

利用NARX神经网络进行训练，验证集误差在NARX神经网络训练1次以后上升，表明训练可以结束，数据集此时的误差为0.003 997 6。

NARX神经网络预测效果可视化分析通过预测效果误差图进行。由图8可见误差线比较短。误差自相关图显示：误差在lag为0附近最大，其他情况均不超过置信区间，表明NARX神经网络预测效果较好，预测结果如表3所示。

表3 基于NARX神经网络的北京市入境旅游人数预测值万人次