基于多尺度级联森林的交通安全状态预测*

时间：2024-05-04

王博宸朱玉全

（江苏大学计算机科学与通信工程学院镇江 212013）

1 引言

交通事故是在世界范围内一个主要的和日益增长的问题，根据事故的严重程度，乘客可能受到不同程度的伤害，导致他们永久性残疾或者需要数年来恢复健康。根据世界卫生组织（WHO）的统计，每天有超过3400人在道路上死亡，每年有数千万人受伤或伤残。面对这些可能的和意想不到的交通事故，了解是什么原因导致交通事故和早期预警会对规划有效的交通管理起到关键作用。

随着机器学习与人工智能技术的飞速发展，相关技术被大量应用在了智能交通系统（ITS）上。该系统通过应用计算机和信息技术，把人、车、路等交通因素加以统一考虑，能够使道路交通变得更安全、更具有高质量和高效率。交通事故风险预测系统就是其中一个重要的组成部分，通过对大量的交通数据进行处理，进而对某一地区的事故风险进行预测，然后利用交通广播公众信息平台发出预警，附近的司机就能够根据提醒提前进行相应的措施。

在国外的相关研究中，Lv等［1～2］利用基于欧氏距离的特征选择方法选择特征变量，采用C-means和K近邻法对事故进行实时预测。YU R等［3］采用了SVM模型进行实时的道路事故风险评估。WANG L［4～5］等采用了概率神经网络（PNN）决策树等模型来计算发生事故的概率。Alkheder等［6］使用人工神经网络（ANN）进行事故预测，Maher等［7］进一步使用递归神经网络（RNN）预测交通事故伤害严重程度。在国内的相关研究中，吴立新［8］等使用Logistic模型进行寒区冰雪期城市道路交通冲突与事故预测。张道玉等［9］构建基于改进贝叶斯网络的高速公路交通设施风险评估模型，可将高速公路交通设施现状调查结果带入模型进行风险评估。近期，也有一些研究引入了非参数的机器学习模型，如张军等［10］提出一种基于Parzen窗和AdaBoost分类器的交通事故实时预测的方法。总而言之，多样的交通参数与条件因素增加了交通事故的变化。尽管有许多研究对造成交通事的相关因素进行了研究，有效地预测了交通事故风险仍然是一个挑战问题。

本文在多粒度级联森林算法的基础上进行了改进，提出了一种适用于时序数据分类的多尺度级联森林算法，并将其应用于交通安全状态预测任务。

2 道路交通安全状态预测原理

交通流数据作为能够直接收集到的基础交通数据，能够反映出道路的交通状况和运行状态。假设交通事故发生在t+1时刻，那么通过t至t-n时刻的交通流数据，就能够对与事故发生相关的数据特性进行分析，进而对未来的交通安全状况进行预测。

基于分类器的交通安全状态预测过程如图1所示。首先根据历史交通流数据与交通事故数据进行匹配，获得正常交通状况与事故交通状况对应的交通流数据；然后对数据进行预处理和时滞选择，对选择出的变量进行聚类和统计分析，将是否发生事故量化为不同等级的安全状态；最后，使用这些数据训练分类器，得到能够直接对原始数据进行判别的模型。

3 道路交通安全状态量化

3.1 特征选择

交通流的时序特征表现了当前时间节点与历史事件节点上数据的相关性，我们选取预测时间点前12个时滞长度（即1h）作为初始的时序特征，即流量时序特征V={V1…V12}，速度时序特征S={S1…S12}，占有率时序特征O={O1…O12}。

由于交通流数据有着较高的维度，不但难以利用而且容易导致信息冗余，因此我们需要将它们映射到一个未知的低维空间上，通过特征选择的方法选择少量有价值的变量。这样可以通过消除冗余或者噪声特征来降低下游学习的计算成本。本文使用条件协方差最小化［11］（Conditional Covariance Minimization，CCM）来进行时序特征时滞长度的选择，CCM是一种可以在回归中同时描述依赖性和预测误差的标准，该方法基于最小化条件协方差算子的迹来进行特征选择。对于时序变量，我们考察每个时滞位置的特征重要度，根据重要度衰减的平缓程度来选取合适的时滞长度n。图2展示了时滞长度为n的时序特征变量的平均重要程度，可以看出在n=6处最为合适。

图2 时滞长度选择

3.2 道路交通安全状态量化

单独的交通事故的发生具有偶然性，如果直接使用是否发生事故作为任务目标，容易造成模型的不拟合，也不能够有效解决道路安全的评估问题。因此我们首先借助聚类算法和相关性分析来对交通流数据进行量化，获得不同的安全等级模式，这也是交通流模式划分中常用的方法［12～13］。

对于交通流数据X，首先通过K-means算法进行聚类。K-means聚类使用一个目标函数来指导算法的收敛，对于欧式空间的样本数据，以平方误差和（Sum of the Squared Error，SSE）作为聚类的目标函数：

式（1）表示样本点x到类簇的质心的距离平方和；最优的聚类结果应使得SSE达到最小值。

聚类获得不同的类簇集合(X1，…，X n)，然后将数据集X根据是否发生交通事故划分为正常交通流集合C和事故交通流集合A。对于得到的这几个集合，我们定义了两个变量用来进行相关性分析：总冲突数据比例（Ratio of Crash in Total，RCT）和平均冲突相关性（Average Crash Correlation，ACC），如式（2）～（3）所示。通过统计每个类簇的RCT和ACC可以为不同的类簇分配不同的交通安全等级。

4 多尺度级联森林分类器的设计

4.1 多粒度级联森林

多粒度级联森林［14］（Multi-Grained Cascade Forest）也叫深度森林，是一种决策树集成方法，性能较之深度神经网络有很强的竞争力。模型主要由多粒度扫描与级联森林两部分组成，多粒度扫描用来处理特征关系，级联层接收由前一级处理的特征信息，并将处理结果输出到下一级，其结构如图3所示。该模型有着参数少，模型对超参数调节不敏感，并且一套超参数可使用到不同数据集的特性，因此可以适应于不同大小的数据集，模型复杂度可自适应伸缩。

图3 多粒度级联森林结构

4.2 多尺度特征扫描

由于事故前时段的选择并没有一个统一的标准，许多研究采用自定义的标准来确定时滞，这样的方法不具有通用性。因此在模型的多粒度扫描部分，我们针对交通流数据的时序特性，改进多粒度扫描模块，使用不同长度的时滞作为粒度基准，提取不同时滞下的数据构建特征。对于单一时间序列输入x，进行降采样和滑动平均等变化，产生多组长度不同的时间序列，并在多组时间序列上进行处理，提取不同时间尺度序列的特征。将多尺度特征扫描与级联森林进行组合，就可以得到多尺度级联森林模型（Multi-Scale Cascade Forest）。

MSCF通过降采样的变换，实现在不同时间尺度的序列上的特征提取。具体操作为使用一组降采样因子k1，k2，k3，以k i-1为间隔进行数据采样，如式（4）。

MSCF通过滑动平均的变换，实现对噪音的抵抗性。具体操作为使用一组滑动窗口l1，l2，l3，以l i为间隔对数据进行平均处理，如式（5）。

多粒度扫描的结构如图4（a）所示，算法通过不同粒度的数据长度和不同的滑动窗口大小进行随机采样。改进后的多尺度扫描的结构如图4（b）所示，在不同时序长度组成的特征基础上，通过多组降频因子k和滑动窗口l对原序列进行处理，得到多个时间序列，并在不同时间序提取在不同时间规模下的抽象特征。相比多粒度特征扫描，这种特征扫描方式更适用于时序问题。因此我们选用多尺度级联森林模型作为分类器对未来一段时间的交通安全状态进行预测。

图4 特征扫描

5 实验与分析

实验的硬件环境为Intel Core i5处理器，6G DDR3内存，NVIDIA GT 640显卡。软件环境为Python 3.6，Keras 2.1.0，TensorFlow 1.5.0，Scikit-learn 0.18。

5.1 数据描述与处理

本文采用了美国US-26公路在2016/1/1日到2016/12/31日收集到12个检测站的交通流数据以及对应的交通事故数据，采样时间间隔为5min。实验中随机选取其中的75%作为训练数据，25%作为测试数据。

由于检测器本身的问题和后期收集处理的问题，得到的交通流数据会存在一定程度的错误与缺失。因此在应用这些交通流数据之前，需要对这些数据进行预处理，预处理主要包括如下：

1）分别使用历史数据，线性插值与KNN的方法对缺失的数据进行填充。

2）由于交通流数据不同属性之间数据的分布不同，需要将所有数据进行归一化处理。

5.2 评价指标

在本章所有的实验中分别使用了精准率（Precision）、召回率（Recall）、准确率（Accuracy）、F1分数（F1-score）和kappa系数（Cohen's kappa）这五个指标来衡量所提出的预测算法的准确性。如果指标值越大，那么该算法的效果越好。

Precision指标定义如下：

Recall指标定义如下：

Accuracy指标定义如下：

F1-score指标定义如下：

kappa系数定义如下：

5.3 实验结果

交通安全状态的量化结果如表1所示，RCT越高表明这个类簇中包含的事故数据越多，ACC越高表明这个类簇中的数据与事故数据的相关性越大。从表1中可以看出RCT与ACC呈正相关，因此根据这两个指标为不同的交通状态分配了安全等级，等级越高交通事故风险越大。

表1 统计分析

实验一对AdaBoost、LSTM［15］、多粒度级联森林（MGCF）和多尺度级联森林（MSCF）四种算法进行了对比。表2列出了在整个测试集上的不同方法预测结果的对比，可以看出使用了多尺度特征扫描的级联森林相比使用多粒度特征扫描更加有效。同时，提出的方法在预测精度上优于对比的方法。

表2 不同方法预测结果对比

实验二对上述算法的运算复杂度进行了实验对比。表3列出了在整个数据集上的不同方法的训练效率与测试效率，单位为s。其中LSTM为GPU运算时间，其他算法为CPU运算时间。所有的方法在测试集上都得到了一个可接受的运行时间，平均每条数据都能达到实时性的要求。MSCF方法相对深度学习方法，在保证了准确率的情况下有效地缩短了模型的训练时间。

表3 不同方法效率的对比

实验三对多尺度级联森林在不同安全等级的类上的表现进行了评估，如表4和图5所示。可以看出MSCF在五个安全等级上都能够达到较好的分类效果，其中等级4和等级5较为容易被错分为其他等级，这些误差可能产生于类簇的边界部分，但是算法整体的分类误差仍处在较低的水平。

表4 不同状态分类报告

图5 MSCF算法的混淆矩阵

6 结语

本文提出了一种基于多尺度级联森林的交通安全状态预测方法。该方法以多粒度级联森林方法为基础，对特征扫描的部分进行了改进。通过对不同时滞长度的时序数据进行降采样和滑动平均，能够有效的提取到时序相关的特征，提高时序数据分类的准确率。实验结果表明，本文所提的方法能够提升交通安全状态预测的准确性，有助于挖掘宏观交通流中内在的演变规律。