样本长度对灰色预测性能的影响

时间：2024-06-19

金剑，高雅硕

（河北大学经济学院，河北保定071002）

一、引言

邓聚龙教授于1982 年提出了灰色系统理论，将灰色系统定义为同时包含已知信息和未知信息的系统（Deng，1982）[1]，这为后来的灰色模型（Grey Model，GM）构建奠定了理论基础。与其他预测模型相比，灰色预测模型对样本量较少、分布未知的数据预测准确性更高。传统的GM（1，1）模型即一阶单变量灰色预测模型已经在经济、社会、生态、医疗等领域得到了广泛应用，但该模型对于千变万化的数据来说是存在缺陷的。近年来，学者们依据不同领域数据的特征，将传统的灰色预测模型与其他模型结合起来建立组合模型，大大提高了预测精度，如混合灰色模型、灰色动态模型、灰色神经网络组合模型等。

目前，以灰色系统理论为基础的预测方法在经济活动和自然科学等领域的运用已逐渐成熟。与其他模型相比，在小样本、数据分布未知的情况下，灰色预测模型有着特殊的优势。鉴于以往的研究对方法改进关注较多，而对数据的关注较少，也未探究灰色预测模型为何适用于小样本预测，为了弥补已有研究的不足，本文以河北省城镇居民实际人均可支配收入为例，对不同长度的样本分别建立GM（1，1）模型，比较其预测效果，探究样本长度对模型预测性能的影响，并基于合适的样本长度建立模型，预测未来几年河北省城镇居民实际人均可支配收入的变化趋势。这不仅为灰色预测模型研究提供了一定的理论支撑，也为今后的模型应用提供了方法指导。

二、文献综述

灰色预测是对既含有确定信息、又含有不确定信息的系统进行预测的方法，该方法已在医疗、经济及人力资本等诸多领域得到了广泛应用（Guo et al.，2014；Zhang et al.，2017；Hu，2017；Yin and Tang，2013）[2-5]。由于传统模型存在缺陷，学者们将传统的灰色预测理论与其他方法或理论结合起来构建了新的模型。为了有效解决信息量较少的问题，Wang 等（2014）[6]将灰色理论与自助法相结合，提出了动态自助灰色预测方法（DBGM）。为了减少数据波动的影响，Wu 等（2016）[7]在模型中添加了时间的权重，提出了基于时变加权的灰色模型（WGM）。为了改善背景值的平滑效果，杨孝良（2018）[8]提出了基于三参数的背景值构造方法，弱化了极端数据对预测性能的影响。此外，还有一些学者提出了预测季节波动序列的灰色建模方法DGGM（1，1）（Wang et al.，2017）[9]以及预测单峰序列或波动序列的融合自忆性原理的GM（1，1）幂模型（Guo et al.，2014）[2]。

目前，灰色预测法已经从传统的单一模型演变为包含多个模型的复杂方法体系，模型的预测精度不断提高，而且衍生的灰色预测模型很好地解决了小样本问题。然而，学者们在实证研究中使用的样本长度是完全不同的。例如，Wu 等（2016）[7]使用长度为4、10、14 的样本建立模型，Hu（2017）[4]使用长度为4 的样本进行滚动预测，Yin 和Tang（2013）[5]使用的是长度为22 的样本，Wang 等（2017）[9]则使用了11 年的季度数据拟合模型，样本长度达到43 个（第一年缺少第一季度的数据）。可见，现有研究主要关注模型对某一样本的拟合程度和预测精度，很少关注选用的样本长度是否恰当，而实证中样本长度的选择由于受研究者的主观影响或是数据可得性的限制，尚缺乏科学的依据和理论支撑。

样本长度对模型的预测能力是有影响的，样本量过多或过少都会影响模型的预测精度。Wu 等（2013）[10]利用矩阵摄动理论解释了灰色预测应使用小样本的原因，并在不同的案例中分别使用长度为4 至9 以及14 的样本建立模型，发现长度为4 的样本预测效果较好，从而得出小样本的GM（1，1）模型具有更高预测精度的结论。但是，Wu 等选取的样本长度仍然不够。为了弥补不足，本文以河北省城镇居民实际人均可支配收入为例，增加样本长度，研究不同的样本长度对灰色预测模型GM（1，1）预测性能的影响，并选取合适长度的样本建立模型，预测未来河北省城镇居民实际人均可支配收入的发展趋势。

与现有文献相比，本文的贡献主要体现在以下方面：一是利用R 软件编写了GM（1，1）模型的自编函数，在较短时间内建立了多个GM（1，1）模型，提高了建模效率，克服了目前缺乏适合灰色预测建模软件的缺陷；二是针对长度为3～35 的样本分别建立了GM（1，1）模型，并对这33 个模型的预测结果进行了分析，发现模型的预测性能与样本长度之间的关系是，随着样本长度的增加，模型预测的相对误差并未呈现增加或减少的趋势，而是呈现上下波动的周期性变化特征；三是根据预测误差波动的幅度及样本的预测结果，证实了GM（1，1）模型适合于较小样本的预测，而对较大样本的预测效果较差，这为以往研究提出的灰色预测模型适合小样本的论断提供了有力证据和理论支撑；四是通过比较不同样本的多步预测结果，提出适合建立GM（1，1）模型的样本长度，为灰色预测模型的使用提供了指导建议。

三、模型和数据

（一）GM（1，1）模型及评估方法

GM（1，1）模型是从原始数据中找出规律，针对生成数据建立灰色微分方程的一阶单变量灰色时间序列预测方法。GM（1，1）括号中的第一个参数代表阶数，第二个参数代表变量个数。该模型不需考虑相关因素对系统发展趋势的影响，建模过程较为简单（吴华安等，2018）[11]。模型应用是以灰色系统理论为基础，即由非负的原始数据累加生成的序列可以减少随机因素的影响，故采用这种方法可以针对生成数据构建模型。假定原始数据是长度为m 的时间序列：

我们分别将式（1）中的每个元素累加，得到生成列：

我们将式（2）序列每对相邻的两个元素相加，生成紧邻均值序列：

根据式（1）和式（3），我们构建了GM（1，1）模型的灰微分方程，公式如下：

其中，a 称为发展灰数，b 称为内生控制灰数。当-a≤0.3 时，模型的预测精度较高。

在X(0)（k）和Z(1)（k）已知的情况下，式（4）即为典型的一元线性回归模型。因此，我们可以利用最小二乘法求解未知参数a、b，计算过程如式（5）、（6）所示：

就式（4）而言，如果将k 定义为连续变量t，则灰微分方程的白化方程为：

对式（7）求解并将连续变量t 转换为原来的离散变量k，我们可以得到：

由于X(1)是序列X(0)的一次累加生成列，对预测序列X^(1)进行逆运算，即将相邻两个元素相减，我们就可得到预测序列X^(0)：

其中，X^(0)（1）=X(0)（1）。从式（9）中可以看出，GM（1，1）模型的预测序列是关于k 的指数型序列，适用于预测指数型的时间序列，但该模型对其他特征数据的预测存在一定的缺陷。因此，在传统模型的基础上，新的灰色预测模型不断衍生出来。

GM（1，1）模型的评估分为内部评估和外部评估两部分，内部评估使用单个模型拟合程度的评价指标，外部评估则需使用比较不同模型的评价指标。

1.内部评估。内部评估的指标有很多，如关联度、平均相对误差、均方差比值和小误差概率等。

平均相对误差是根据模型的拟合值和实际值计算得出的，即首先需要求出模型的绝对误差序列：

将式（10）除以原始序列，即可得到相对误差序列：

将相对误差序列求取均值，即为平均相对误差序列：

均方差比值是原始序列与绝对误差序列的标准差之比，它反映了残差的分布特性。均方差比值的计算方法是先求得原始序列和绝对误差序列的标准差：

计算式（13）中两个标准差之比，即可得出均方差比值：

根据式（10）的绝对误差序列和式（13）的原始序列标准差，我们可以计算出小误差概率：

小误差概率是常用的GM 模型检验指标，其取值越大越好。

关联度常用来分析不同序列之间的相似程度，以判断不同序列之间的紧密性（沈颂东和亢秀秋，2018）[12]，利用关联度可以判断模型预测序列的拟合程度。关联度的计算方法是先求出原始序列与拟合序列相应元素之间的关联系数，其公式如下：

计算上述关联系数序列的均值，可以得出如下关联度公式：

为了避免量纲的影响，关联度的计算需要将每个序列初始化，即序列中的所有元素都要除以第一个元素。由于GM（1，1）模型的拟合序列与原始序列的第一个元素相同，故不需要进行初始化。此外，当ρ=0.5，关联度大于0.6 时，模型是令人满意的。

在上述指标中，平均相对误差和均方差比值是越小越好，而关联度和小误差概率是越大越好。通常来说，GM（1，1）模型的精度等级可以根据均方差比值和小误差概率来评定，如表1 所示。

表1 GM（1，1）模型的精度等级评定

2. 外部评估。外部评估主要是比较不同的GM（1，1）模型的预测性能，即根据每个模型的预测结果，计算出模型的平均绝对百分比误差（Mean absolute percentage error，MAPE）。MAPE 实际上是以百分比形式表示的平均相对误差。为了便于区分，本文所说的平均相对误差均为样本内误差，是根据模型拟合值和实际值计算的，而MAPE 是指样本外误差，是根据模型的预测值和实际值计算得出的，即在式（11）的基础上乘以100%，再计算其均值，即可得到MAPE。

（二）数据来源及处理

本文的数据来源于2018 年的《河北经济年鉴》以及国民经济和社会发展统计公报。我们对河北省城镇居民人均可支配收入及其指数（1978=100）进行计算，表2 即为以1978 年为基期的城镇居民实际人均可支配收入。由于灰色预测模型适用于短期预测，故本文只研究GM（1，1）模型1～5 步的预测性能。为了便于比较，本文将数据分为两个部分，即1978—2012 年为训练集，2013—2017 年为测试集。我们首先在训练集中提取不同长度的子集建立GM（1，1）模型，预测2013—2017 年的数据，然后计算每个模型的各项评估指标，比较各模型的拟合程度和预测性能，最后根据分析结果，以1978—2017 年为训练集，从中选取合适长度的样本对未来实际人均可支配收入的发展趋势进行预测。

受数据可得性的影响，本文的样本长度最多为35 个，即利用1978—2012 年的全部数据进行预测。样本长度不够会给预测方程的建立带来困难，最少也得有3 个，即包括2009—2011 年的数据。因此，本文涉及的样本长度为3～35 个，分别对应2010—2012 年、2009—2012 年、2008—2012 年、……1978—2012 年的数据，通过建立GM（1，1）模型预测2013—2017 年的城镇居民实际人均可支配收入。表2 中的第三列和第六列为实际收入序列的级比序列，即当年的实际收入除以上年的实际收入。可以看出，级比序列中各元素的值相差不大，介于1.00～1.37 之间，说明1978—2017 年的河北省城镇居民实际人均可支配收入呈现指数增长。

表2 河北省城镇居民实际人均可支配收入（1978 年为基期）

四、实证结果

本文涉及的样本长度为3～35 个，这就需要构建33 个GM（1，1）模型。R 软件能够减少大量重复运算并快速得到结果，根据公式（1）至公式（16），本文利用R 软件创建了GM（1，1）模型的自编函数，得到不同样本的拟合结果（见表3）。可以看出，发展灰数a的绝对值在0.106～0.123 之间，小于0.3，说明GM（1，1）模型是有意义的，可以用于预测。随着样本长度的增加，内生控制灰数下降幅度较大，从14 125.6降到537.0，下降了96.20%。通过比较发展灰数和内生控制灰数的变化范围，本文发现样本长度对模型内生控制灰数的影响较大，对发展灰数的影响较小。

本文根据模型的内部评估指标评价模型的拟合程度，发现关联度普遍不高，仅在0.557～0.699 之间，当样本长度为5～8、10～14、26～35 时，模型的关联度才会大于0.6。除关联度以外，其他指标的结果较好。随着样本长度的增加，均方差比值大致呈现上升趋势，从0.007 增加到0.236，小于0.35，而小误差概率均为1。表1 的结果说明，GM（1，1）模型的精度等级为优，即本文针对不同样本建立的GM（1，1）模型是合理的。

通过比较各模型的平均相对误差，本文发现，随着样本长度的增加，平均相对误差越来越大。当样本长度在7 以下时，平均相对误差在1%以内，长度为8～15 的样本平均相对误差在5%以内，而当样本长度大于24 时，平均相对误差大于10%，长度为35 时的平均相对误差甚至达到39.97%。模型的拟合结果说明，样本长度越小，模型的样本内误差就越小，拟合程度也越高。

表3 各样本的GM（1，1）模型结果

本文对各模型的预测结果进行了比较。由于数据较多，为了更好地反映数据的分布特征，我们将数据以可视化的形式展现出来。根据公式（11），结合2013—2017 年模型的预测值和实际值，我们计算出每个模型的预测相对误差序列（以百分比表示），分别绘出该序列中每一个元素的预测相对误差与样本长度之间的关系，如图1 所示。

图1 样本长度与各年预测值相对误差的关系

图1的横轴代表样本长度，纵轴代表各年的预测相对误差（单位为%，下同）。图中不同的符号代表一定范围的相对误差，圆点代表相对误差在（0%，2%）之间，三角代表相对误差在（2%，5%）之间，加号代表相对误差在5%及以上。可以看出，与表3 的平均相对误差不同，各年预测相对误差与样本长度呈现非线性关系。与长度为15 以上的较大样本相比，基于长度在15 以下的较小样本建立的GM（1，1）模型，其预测相对误差较为稳定（为了便于说明，下文的较小样本均指长度在15 以下的样本，较大样本均指长度在15 以上的样本）。具体来看，随着样本长度的增加，预测相对误差的变化呈现上下波动的趋势。样本长度超过30 之后，预测的相对误差急剧增大。

从每次波动的最低点（波谷）来看，各年波谷出现的位置并不相同。总的来说，以各年预测值相对误差为依据，2013—2015 年长度在15 以下及29 左右的样本预测相对误差较小，而2016—2017 年长度为17～26 的样本预测相对误差较小。对于长度在15 以下的样本而言，2013—2015 年的相对误差变动曲线较为平缓，2014 年和2015 年的预测误差较小，2016—2017 年则出现波峰，超过了10%。对于长度在15～25 之间的样本而言，随着年份的增加，波峰越来越低，变动的幅度也越来越小，特别是在2016 年和2017 年，相对误差大多在5%以下。对于长度在25 以上的样本而言，随着年份的增加，波谷出现的位置越来越靠近长度较小的样本，2013 年的波谷在长度为30 的位置，2016 年的波谷则出现在长度为25 的位置。

根据不同样本长度下各模型的预测相对误差序列，本文分别计算了不同预测步长下的平均绝对百分比误差MAPE，并针对每个步长绘出各模型MAPE与样本长度之间的关系，如图2 所示（图2 中各符号的含义同图1）。可以看出，随着样本长度的增加，各步长预测的MAPE 变化与图1 的趋势大致相同，当样本长度超过30 之后，MAPE 急剧增大，而在长度为30 以下的样本中，随着步长的增加，MAPE 曲线越来越平缓。观察多步预测中MAPE 在5%以下的样本可以发现，三步和四步的预测效果最好，其次是二步，而一步和五步的预测效果最差。与其他长度的样本相比，各步在长度为15 以下的样本中，MAPE变化较为平缓，预测效果较好，而在长度为15 以上的样本中，MAPE 变化较大，仅长度为29 左右的样本预测效果较好。因此，长度在15 以下的较小样本更适合建立灰色预测模型。

观察图1 和图2 可以确定，GM（1，1）模型的预测性能与样本长度之间的关系是非线性的，即随着样本长度的增加，模型预测性能在上下波动，且波动幅度越来越大。这进一步表明，与较大样本相比，GM（1，1）模型对较小样本的预测能力是较好的。在较大样本中，基于长度为29 左右的样本建立的模型预测效果较好。长度为30 样本的一步预测和二步预测MAPE 甚至在2%以下，其预测性能超过部分较小样本的预测性能（图2）。但表3 的结果显示，在这一范围内，各模型的样本内误差即平均相对误差较大，均在10%以上，说明模型对原始序列的拟合较差。这也证明模型的外推能力与拟合程度并不是正相关的，外推能力较好的模型对原始序列的拟合并不一定表现更好。图1 也显示，在这一区间内，各模型对各年的预测相对误差变化较大，如长度为29 的样本在2013—2015 年的相对误差较小，但其在2016—2017年的相对误差却较大。

图2 样本长度与预测步长的平均绝对百分比误差之间的关系

以上结果表明，GM（1，1）模型尽管在部分较大样本中能够取得较好的预测效果，但其并不稳定，因此，该模型不适合较大样本的预测，其仅对长度为15 以下的较小样本预测效果较好。结合图1 和图2，本文试图找出最适合建立GM（1，1）模型的样本长度。首先，GM（1，1）模型适合于三步预测。图1 中，2013—2015 年的小样本预测效果较好，而2016—2017 年的预测效果较差。图2 中，二步和三步预测的效果较好，而四步预测的MAPE 尽管较小，但2016年的相对误差较大。其次，对于长度为8～13 的样本，图2 中一步、二步和三步预测的MAPE 较小，而图1中2013 年和2014 年的预测相对误差较小，2015 年的预测相对误差虽然不如长度为8 以下样本的相对误差小，但这一区间长度的样本误差均在5%以下。因此，GM（1，1）模型适合采用长度为8～13 的样本进行三步以内的预测。

五、模型的应用

由前文的分析可知，长度为8～13 的样本适用于三步预测，特别是长度为9 的样本三步预测效果最好。因此，本文选用长度为9 的样本预测河北省2018—2020 年的城镇居民实际收入。结果显示，其灰色微分方程的解为：

模型的发展灰数绝对值为0.097，小于0.3，说明GM（1，1）模型是有意义的。模型的内部评估指标显示，关联度为0.535，均方差比值为0.067，小误差概率为1，样本内平均相对误差为3.22%，说明模型的精度等级为优。根据公式（19）进行三步预测，计算k=9～11 的值，得出的预测结果即为以1978 年为基期的实际人均可支配收入，将其换算成以2017 年为基期的结果如表4 所示。可以看出，以2017 年为基期，未来三年的城镇居民实际人均可支配收入将继续增长，各年的增长率超过10%，2020 年的人均收入将超过40 000 元。2018 年的增长率也很高，达到13.50%，之后增长率稳定在10%左右。

图3 1978—2020 年河北省城镇居民实际人均可支配收入

图3是模型的预测结果，曲线是由模型的拟合值和预测值连接构成的，即公式（19）所表达的指数曲线。可以看出，各点对曲线的偏离程度较低，说明GM（1，1）模型较好地拟合了城镇居民实际人均可支配收入的变化趋势。

表4 2018—2020 年河北省城镇居民实际人均可支配收入的预测结果

六、研究结论

灰色预测模型是在含有不确定成分的系统中，通过数据处理找出具有较强规律性的生成数据，建立微分方程预测未来的趋势，其对样本量小、分布未知的数据是适用的。本文以城镇居民实际人均可支配收入为例，选取长度为3～35 的样本，通过比较基于各样本建立的GM（1，1）模型的预测结果，研究了样本长度对GM（1，1）模型预测性能的影响，同时选取合适长度的样本预测了2017 年以后中国城镇居民实际人均可支配收入的变化趋势。本文的研究结论如下：（1）样本长度对灰色微分方程中的发展灰数影响较小，而对内生控制灰数影响较大；（2）样本长度与模型的预测相对误差呈现非线性关系，即随着长度的增加，模型的预测相对误差上下波动，且波动幅度越来越大；（3）通过分析各步长MAPE 与样本长度之间的关系，发现与长度在15 以上的较大样本相比，长度在15 以下的较小样本更适用于建立灰色预测模型；（4）在较大样本中，部分样本的预测性能较好，其甚至与较小样本的预测性能不相上下，但在较大样本下，模型的样本内误差较大，超过10%，且模型对各年预测的误差不稳定，因此，GM（1，1）模型不适合大样本预测；（5）在较小样本中，长度为8～13 的样本适于建立GM（1，1）模型并进行三步预测；（6）以2017 年为基期，未来三年的城镇居民实际人均可支配收入将继续增长，各年的增长率超过10%，2020 年的人均收入将超过40 000 元。

本文的研究弥补了已有文献的不足，即考虑了样本长度对预测性能的影响，利用R 软件的优势，创建了GM（1，1）模型的自编函数，并计算出33 个模型的预测结果。从可视化的模型结果中可以看出，样本长度与灰色预测性能之间存在非线性关系，某些样本长度是适合建模的，这为灰色预测模型更适用于小样本数据预测提供了充足的证据。当然，本文的研究尚存在一些缺陷，如仅使用了传统的GM（1，1）模型进行分析，而未涉及灰色模型体系中的其他衍生模型，今后应进一步扩展对灰色预测及其应用模型的研究。