当前位置:首页 期刊杂志

基于ARIMA-LSSVM混合模型的犯罪时间序列预测*

时间:2024-05-22

涂小萌,陈强国

(武汉大学 计算机学院 国家多媒体软件工程研究中心,湖北 武汉430072)

基于ARIMA-LSSVM混合模型的犯罪时间序列预测*

涂小萌,陈强国

(武汉大学 计算机学院 国家多媒体软件工程研究中心,湖北 武汉430072)

对犯罪时间序列的预测对帮助公安部门更好地掌握犯罪动态,实现智能犯罪发现具有重大意义。针对犯罪时间序列预测的计算需求,结合真实犯罪数据集,提出了ARIMA-LSSVM混合模型。该模型通过ARIMA预测出时间序列的线性部分,通过PSO优化的LSSVM模型预测非线性部分,以对序列进行充分拟合,最后通过混合算法计算最终结果。使用此混合模型达到了精准的预测效果,证明了模型的有效性。

犯罪时间序列;相空间重构;滑动自回归平均模型;后向传播神经网络;PSO-LSSVM

0 引言

高复杂度、样本数据规模的持续增长是时间序列的两大特点[1]。时间序列预测算法是从传统的以ARIMA模型为核心的线性预测算法发展到以机器学习算法为核心的非线性预测算法。线性预测算法能够以较低的计算复杂度获得较为理想的运算结果,非线性预测算法能够很好地逼近任意复杂度的非线性函数。而组合预测算法针对同一时间序列,结合线性和非线性模型的优点,可以获得更佳预测效果。

组合预测方法由J.M.Bates和 C.WJ.Granger在 1969年首次提出,并广泛应用于各个领域。如ARIMA模型和SVM算法的组合在预测股票走势时,预测精度与单一模型相比有明显提高[2]。利用粒子群算法优化的 BP神经网络的学习算法,结合ARIMA和GM灰色预测的三个模型的组合预测也证明了其有效性与精确性[3-4]。ARIMA和BP的组合方案被应用于海洋流速、城市交通客流量的预测中[5-6]。

时间序列预测属于对时间序列规律的总结归纳,是犯罪数据挖掘的重要应用之一[7-8]。在犯罪预测领域,国内外学者进行了一系列研究。如对犯罪预测的研究方法的探索[9];通过相空间重构针对时间序列进行重构,并使用基于粒子群(Particle Swarm Optimized,PSO)优化的最小二乘支持向量机 LSSVM建立犯罪趋势预测模型[10];使用 SVD算法对犯罪时间序列进行分解及预测[11]等,但单一模型预测的精度还有待改善。基于此,如何对犯罪时间序列进行精确和高效的预测成为一个重要的研究课题。本文提出的混合模型利用ARIMA、LSSVM和组合预测法的优势,对微软公共犯罪数据集进行建模与预测。通过仿真实验得出结论,ARIMA-LSSVM混合模型与常用的ARIMA-BP混合模型相比,预测精确度有明显提高。

1 时间序列预处理-相空间重构

对于高维时间序列数据,在建模之前需对序列预先进行相空间重构PSR处理。

首先对长度为N的原始时间序列 Xt={x1,x2,…,xN}进行处理,得到延迟序列 Y(t):

其中,τ称为延迟算子或采样算子,m称为嵌入的维度。

然后建立Y(t)到Y(t+T)的映射函数关系:

其中,Y(t)为原始序列,YF(t+T)为预测序列,et为典型噪声因子。

由式(2)可得:

因此预测结果可以表示为:

2 ARIMA模型

ARIMA(Autoregressive Integrated Moving Average Model)模型表达式为ARIMA(p,d,q)。其中d代表差分次数,p和q分别代表自回归和移动平均系数。

模型定义如下:

其中,Φ1Φ2…Φp为自回归系数,Θj(j=1,…,q)为移动平均系数。ut为独立高斯噪声项,ut~N(0,σ2)。

引入延迟算子(B):

模型简化为:

若xt为非平稳序列,通过差分得到平稳序列 zt:

其中,d为差分次数。

3 LSSVM模型

最小二乘支持向量机LSSVM是结构最小化风险函数为二次损失函数的支持向量机。

支持向量机分类器的表达式为:

其中,k=1,…,N;ω为权重值,b为结构风险规则。xk为输入模式,yk为输出。φ为将输入数据映射到高维特征空间的非线性映射。εk为误差变量。

对于最小二乘支持向量机,基于结构风险最小化原则,优化问题为:

其中,γ>0,为正则化参数。

根据Karush-Kuhn-Tucker(KKT)条件和Mercer条件,LSSVM的优化问题转化为求解线性方程,最后得到方程:

其中,Ψ=φ(xk)Tφ(xl),k,l=1,2,…,N。

LSSVM的核函数径向基RBF核:

其中,σ为核宽度。RBF内核适用于大多数预测问题,且效率高,处理速度快。使用粒子群优化算法PSO优化的LSSVM比传统 LSSVM具有更好的分类效果[12]。

4 ARIMA-LSSVM混合模型

混合模型包括一个线性模型和一个或多个非线性模型。混合模型Zt可以表示为:

其中,Lt和Nt分别为混合模型的线性和非线性成分。

然后用非线性模型LSSVM对残差序列进行建模:

其中,f(·)为非线性函数,εt-n为 t-n时刻的残差,△t为随机误差。

Granger的实验证明混合模型要取得最优预测效果,成员模型应该是次优的[13]。ARIMA模型在短期预测中预测误差较小[14],混合模型首先利用 ARIMA获取较为精确的预测序列,与原序列相减得到残差序列。残差序列对应于ARIMA无法解释的非线性规律,然后使用LSSVM模型对非线性部分进行建模与预测。最后将两部分的结果相加得到混合模型最终预测结果。算法框架图如图1所示。

图1 算法框架图

5 实验

5.1数据集

实验数据集为 1993年~2009年美国警方记录在案的犯罪数据[15],实验环境为SPSS16.0和MatlabR2011a。

5.2预测模型的评判标准

使用如下统计量检验模型的拟合效果和预测效果:

其中,Zt、分别为真实值和预测值。MSE和MAPE分别为均方误差和平均绝对百分比误差。n为预测样本个数。eMSE和 eMAPE值越小,表明模型的预测精度越高。

5.3预测模型的参数选择

ARIMA模型的参数根据自相关函数图ACF和偏自相关函数图PACF进行选择。LSSVM模型使用RBF核函数和二维栅格搜索方法寻找最优核参数。BP神经网络结构设置为3-10-5-1。

5.4实验方案

首先对模型ARIMA、GM、BP、LSSVM进行时间序列建模,计算其预测误差,结果见表1。

表1 单一模型的相对误差和平均绝对误差

结果表明,ARIMA、BP、LSSVM 3种算法的误差较小。综合建模和预测效果,选取ARIMA、LSSVM、BP作为对比模型。

然后使用本文提出的 ARIMA-LSSVM混合模型进行预测,预测的结果对比如图2所示。横坐标表示时间序列的序列号K,纵坐标表示对应时刻的犯罪数据。K= 12,13,14时曲线对应于 2007~2009年的预测值。算法预测参数对比见表2。

图2 预测结果对比图

表2 算法预测参数对比

实验结果表明,ARIMA-LSSVM对犯罪时间序列的预测误差 MAPE远小于其他预测模型,预测准确度也较高。由于单一的线性模型或者非线性模型预测具有不稳定性,而本文选取的模型充分考虑了时间序列的平稳和非平稳性,使预测容纳更多隐含信息,结合模型的优势,大大提高了预测的稳定性和精确性,预测的结果更有实际意义。

6 结论

本文使用ARIMA-LSSVM混合模型对犯罪时间序列进行组合预测,结果表明与ARIMA-BP混合模型相比,该模型对小样本的犯罪时间序列具有更高的预测精度和有效性。本文属于针对时间信息的归纳与推测,而结合空间信息和时间信息的时空分析与预测更能体现犯罪数据之间的紧密联系,分析结果包含更多信息,是未来进一步的研究方向。

[1]何书元.应用时间序列分析[M].北京:北京大学出版社,2004:185-229.

[2]Pai Pingfeng,Lin Chih-Sheng.A hybrid ARIMA and support vector machines model in stock price forecasting[J].Omega,2005,33(6):497-505.

[3]崔吉峰,乞建勋,杨尚东.基于粒子群改进BP神经网络的组合预测模型及其应用[J].中南大学学报:自然科学版,2009,40(1):190-194.

[4]单锐,王淑花,李玲玲,等.基于ARIMA,BP神经网络与GM的组合模型[J].辽宁工程技术大学学报:自然科学版,2012,31(1):118-122.

[5]董世超.基于 ARIMA-BP神经网络模型海流流速预测研究[J].中国科技信息,2014(2):86-88.

[6]刘杰.城市交通枢纽短期客流量的组合预测模型[J].交通信息与安全,2014(2):41-44.

[7]Fu Tak-chung.A review on time series data mining[C]. Engineering Applications of Artificial Intelligence,2011,24 (1):164-181.

[8]Yu Chung-Hsien.Crime forecasting using data mining techniques[C].Data Mining Workshops(ICDMW),2011 IEEE 11th International Conference on.IEEE,2011:779-786.

[9]黄超,李继红.犯罪预测的方法[J].江苏警官学院学报,2011,26(1):107-110.

[10]王少军.时间序列预测的可重构计算研究[D].哈尔滨:哈尔滨工业大学,2012.

[11]JIANG Q,BARRICARTE J J S.A crime rate forecast and decomposition method[J].International Journal of Criminology and Sociological Theory,2011,4(2):648-656.

[12]ALWEE R,SHAMSUDDIN S M,SALLEHUDDIN R. Hybrid support vector regression and autoregressive integrated moving average models improved by particle swarm optimization for property crime rates forecasting with economic indicators[J].The Scientific World Journal,2013 (1):951475.

[13]Yearly time series(1993-2012),provided by Eurostat(website)[DB/CD].https://datamarket.com/data/set/1c05/crimes-recorded-by-the-police#!ds=1c05!vwx=6:6fwj= 3.6.a.11.19&display=l.

[14]陈昌和,李清海,张衍国,等.炉排-循环床复合垃圾焚烧炉燃烧过程模型[J].清华大学学报(自然科学版),2008,48(5):832-835.

[15]Yang Xiaoguang.An empirical study on stock price based on ARIMA model[C].International Conference on Logistics Engineering,Management and Computer Science,LEMCS,2014:273-276.

A hybrid ARIMA-LSSVM model for crime time series forecast

Tu Xiaomeng,Chen Qiangguo
(National Engineering Research Center for Multimedia Software,Computer School,Wuhan University,Wuhan 430072,China)

Forecasting the time series of crime can help public security department better grasp the criminal dynamic and has a great significance in realizing intelligent crime detection.Specific to the computing need of the prediction of crime time series, combining real crime dataset,a hybrid ARIMA-LSSVM model is put forward.This model utilizes ARIMA model predicting the linear component of series and PSO optimized LSSVM model predicting the nonlinear component to fully fitting the series,and computes the final result by using the hybrid algorithm.The great efficiency and accuracy are reached,which proves the validity of the model.

crime time series;phase space reconstruction(PSR);autoregressive integrated moving average(ARIMA);back propagation neural network(BP);PSO-LSSVM

P391;D917.9

A

0258-7998(2015)02-0160-03

10.16157/j.issn.0258-7998.2015.02.040

湖北省重大科技创新计划项目(2013AAA020)

2014-12-08)

涂小萌(1992-),女,硕士研究生,主要研究方向:数据库技术与数据分析。

陈强国(1975-),通信作者,男,讲师,硕士研究生,主要研究方向:安防应急信息系统,E-mail:chenqg@whu.edu. cn。

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!