多变量聚类分析的高速公路交通流状态实时评估

时间：2024-07-28

陈钊正，吴聪

(1.江西省高速公路联网管理中心，南昌330036；2.南京邮电大学宽带无线通信技术教育部工程研究中心，南京210003)

0 引言

在不增加道路设施的条件下，准确地把握路网交通状态，是制定高效的交通管理控制方案及合理出行方案的基础.交通状态估计主要是通过描述交通流特性的交通流参数及其变化规律来反映交通流的运行情况，传统的单独根据单一的交通流变量来判断该路段的交通状态不够全面，不能完全地反映实际情况[1].例如，同样交通流量很低，却可以对应拥挤或者畅通两种状态；速度为零，可以对应无车辆通过的畅通状态，或者堵死的拥挤状态；而且不同高速公路受道路几何形状、限速和驾驶员行为等影响，不同道路设定的估计参数应有所不同[2].在交通流状态的分类过程中，对交通状态的估计往往不是很精确的概念，而是拥挤，畅通等模糊概念[3].

随着人工智能技术的发展与完善，为根据多变量的交通状态估计算法提供了新思路和途径[4-5].数据挖掘是在庞大而复杂的数据集中发现和提取先前未知、有效的模式及关系的过程[6-7]，所提取的信息有助于建立一个分类模型或者识别数据集中未知的趋势和关系[8-9].

本文结合高速公路实测交通流数据，利用模糊聚类、K-means等算法对速度和流量的二维向量进行聚类分析，给出适合当前高速公路特点的交通状况划分方法和关键参数，比较准确和全面地反映交通流的运行情况.

1 方法简介

聚类分析是一种无监督的学习，依据样本间关联的量度标准将其自动分为几个群组.使得样本的多维分量在同一群组内相似，而在不同群组间相异[10].此相似性需要科学的度量和聚类算法.划分式聚类算法对于大规模数据集的应用占有优势，经典算法有K-means和模糊C均值算法(Fuzzy C-means,FCM)[11].

1.1 K-means算法

McQueen首次提出了K均值聚类算法(K-means算法)[12]，迄今为止，很多聚类任务都选择该经典算法.这种聚类技术可以十分有效地，快速、简单地处理大量数据.采用欧几里德距离计算，K-means聚类方法目标函数的表达式为

式中：K为数据中聚类的数量；ni为簇i中点的数量；xj为第 j个观察点向量；ci为簇i的质心.

每次算法迭代，簇i的质心计算方法为

K-means聚类算法(对n个样本进行聚类)如下所示：

(1)初始化，随机指定K个聚类中心(c1,c2,…,cK)；

(2)分配xj，对每一个样本xj，找到离它最近的聚类中心cw，并将其分配到cw所标明类；

(3)修正cw，将每一个cw移动到其标明的类的中心；

(4)计算偏差，，m为加权指数，控制模式在模糊类间的分享程度，本文取值为2；

(5)D收敛判断，如果D值收敛，则return(c1,c2,…,cK)并终止本算法，否则，返回步骤(2).

基于目标函数，这个方法减少了到组内观测点的平均距离.并且，最终获得事先指定好的聚类个数及被指定属于该聚类的数据点.

1.2 FCM算法

Dunn首次提出模糊C-means算法，Bezdek对其进行了改进[13].该算法受益于模糊逻辑的概念，每一个点不是完全属于一个单一的聚类，而有一个介于0和1之间的隶属聚类群.算法的初始化方法和K-means方法类似.然后，算法给聚类里面的每个点随机分配一个系数.模糊C-means聚类方法的目标函数表达式为式中：uij为聚类i中点的隶属度vj；m为大于1的实数；vj为d维分量的第j个观察点向量.

下一步中，计算聚类的质心，每个点被重复分配系数直到没有改进.模糊算法通过上面提到的等式迭代计算而被管理.迭代过程中不停地更新隶属度uij和质心ci，如式(4)和式(5)所示.

这个迭代算法移植持续到

式中：ε是最终标准在0和1之间；p是迭代步数.

2 评估流程

多变量聚类分析的高速公路交通流状态实时评估方法流程如图1所示，分为离线训练和实时估计两个部分.

首先，对历史交通流数据进行离线模型训练.以该道路上采集的交通流数据为基础，选取合适的特征数据(流量、速度、占有率等参数)，对这些数据进行聚类分析，运用模糊聚类、K-means等算法，找出该道路的不同交通状态各自的特点和分类方法，使得特征数据在同一种交通状态下具有一定的相似性和不同状态之间具有相异性.

其次，对采集到的实时交通流数据进行估计.将从实时交通流数据提取的特征数据和上述聚类分析的交通状态联系起来，利用模式识别的方法，将样本数据和聚类中心进行比较，通过交通状态隶属度矩阵进行运算，即可估计相应时刻该道路所属的交通状态.

图1 交通流状态实时评估方法流程Fig.1 Flow status real-time evaluation method flow chart

3 实际测试

3.1 数据源信息描述

数据来源于美国加州公路局的PeMS系统，选取地点为美国加州洛杉矶市周围的高速公路，如图2所示.时间从2013年3月4～17日，选取其中78个车辆检测器(Vehicle Detection System,VDS)，实时采集的30 s时间间隔的环形线圈检测数据，经过PeMS系统整合得到的间隔为5 min的连续数据，包含流量、车速、占有率等，每个采集点共4 032条数据记录，包含车流高峰与空闲时刻，以及工作日与周末.

对数据采集点VDS 718421(图2圆圈标注点)1周不同时间和工作日的平均交通流情况作图，阐述宏观交通流的3个重要参数：每5 min的车流量、平均车速和占有率的数据曲线，如图3～图5所示.由图可知，高速公路上最小和最大的流量分别在3:00、9:00左右，最小和最大的速度分别发生在18:00、23:00左右，而最小和最大的密度分别在2:00、18:00左右.正如图3～图5所示，交通流在每天不同时段发生改变(峰值和谷值)，有着不同的特征，包括堵塞、正常、通畅，此数据比较全面、适合地对交通流状态进行分类.

图2 选取的数据检测点Fig.2 Selected data detection points

图3 VDS 718421的车流量数据Fig.3 Vehicle flow data of VDS 718421

图4 VDS 718421的平均车速数据Fig.4 Average speed data of VDS 718421

图5 VDS 718421的占有率数据Fig.5 VDS 718421 occupancy data

3.2 聚类算法对比

本文系统中选取每5 min的流量、平均速度作为特征变量，运用K-means和FCM算法进行聚类分析.根据PeMS分类级别，将高速公路路段的交通状态划分为7个层次，Ⅰ～Ⅶ分别对应的交通状态为：畅通、较通畅、平稳、较平稳、较拥挤、拥挤、阻塞.此类划分按照车流量和车速的变化为基准，前4个状态：畅通、较通畅、平稳、较平稳为车速平稳，车流量逐步增加；后3个状态：较拥挤、拥挤、阻塞为车流量较平稳，车速逐步下降.此分类模式乃根据PeMS分类级别和高速公路日常管理应急模式给出.选择数据采集点VDS 718421、VDS 773258和VDS 763458，如图2中圆圈标注，数据包含了欠饱和与过饱和的交通流状态，如图6所示.

变量标准化后，图6中(a)、(c)和(e)为用K-means算法将数据进行聚类分析；图6中(b)、(d)和(f)是FCM聚类方法输出的结果.从速度—流量图中可以看出，K-means算法，在自由流区域(流量较小、车速较快)中，划分为4～5个类别，而在拥挤流区域(流量较大、车速较低)和同步流区域(介于自由流与拥挤流之间)时划分较粗；FCM算法在自由流区域、同步流区域、拥挤流区域中，各分为2～3个类别，重点关注同步流与拥挤流状态的分类及变化，在流量和速度的尺度上类别的划分较均匀，较为合理.每个数据采集点聚类分析的各类别(Ⅰ～Ⅶ)的流量—速度取值范围及质心如表1～表3所示.

从图6、表1～表3中的速度—流量关系中可以看出，若采取单一指标流量进行分类，不能区分同步流和拥挤流，即在流量较大时不能判别道路是否处于拥堵；若采取单一指标速度进行分类，同样的平均车速可能处于不同流区域，无法判断车流量的变化，对车道剩余容量及后续控制都不能提供有效信息.

同时，从速度—流量关系中，可以发现，图6、表1～表3中3个数据采集点流量、速度的变量数值分布和范围也不同，受道路驾驶条件影响，不同道路设定的估计参数应有所不同.而采用聚类分析的方法可以不用设置估计参数，分析中发现各采集点变量数据的分布及特点，进行状态划分.

图6 聚类结果对比Fig.6 Comparison of clustering results

表1 VDS 718421各类别流量—速度取值范围及质心Table 1 VDS 718421 all kinds of flow—speed range and center of mass

表2 VDS 773258各类别流量—速度取值范围及质心Table 2 VDS 773258 all kinds of flow—speed range and center of mass

表3 VDS 763458各类别流量—速度取值范围及质心Table 3 VDS 763458 all kinds of flow—speed range and center of mass

根据各数据采集点的占有率数据及FCM相应的级别(Ⅰ～Ⅶ)，统计聚类后的占有率频率图，如图7所示，不同类别的占有率分布各有不同，自由流区域的占有率主要分布在0.00～0.08，拥挤流主要分布在0.10以上.不同类别之间有一小部分重叠，重叠的主要原因是聚类的计算是基于流量和速度的.

图7 FCM结果中各类别的占有率分布Fig.7 FCM results in various other share distribution

3.3 估计等级简化

上述估计等级根据速度—流量图分为7个级别(Ⅰ～Ⅶ)，反映了交通流的变化及特点.而在实际应用中，若只对道路情况进行宏观了解，可减少估计等级，使得估计结果更易理解，简明扼要.

根据三相交通流理论的自由流、同步流和拥挤流区域划分，将交通流状态等级简化为3个等级：A畅通，平均车速高、车流量和占有率低；B平稳，平均车速、车流量和占有率均高；C拥堵，平均车速低、车流量和占有率高.各数据采集点的FCM算法聚类结果和占有率分布如图8所示.

图8 聚类结果与占有率分布Fig.8 Clustering results and share distribution

从图6和图8对比中可以看出：A等级主要分布在Ⅰ和Ⅱ类别中，B等级主要分布在Ⅲ～Ⅴ类别中，C等级主要分布在Ⅵ和Ⅶ类别中；每个等级的占有率分布各有不同，取值范围存在一些交叉.各等级的流量—速度取值范围及质心如表4所示，对比可以看出，分类的结果较为合理，简明扼要.

表4 各类别流量—速度取值范围及质心Table 4 Different flow rate—speed range and center of mass

4 结论

本文建立了多变量聚类分析的高速公路交通流状态实时评估方法，构建相应的系统评估系统，系统配置为CPU i5 3.1GHz，内存8GB.本文重点在于调整K值，结合高速公路管理实际情况，重点关注车流量和平均车速，本文给出的3个检测器，只是选取了3个代表作为示例，对于每个路段的交通容量和状态划分都要根据各自的道路类型(主次干道)、车道数及类型、位置(是否靠近路口)、施工情况、社会需求等因素变化，未采取统一的粗糙标准(例如单变量判别法)，每个路段的状态划分都由数据规律驱动产生，结合高速公路实际管理需求将7种交通状态合理优化为3种：畅通、平稳和拥堵.结合采集点VDS718421的采集原始数据，如图9所示.其3类交通状态分类百分比和数量如表5所示.

图9 VDS718421车流量与车速对比图Fig.9 Comparison of vehicle flow and speed of VDS718421

表5 交通状态分类百分比和数量Table 5 Flow status percentage and amount

根据VDS718421原始数据车流量与车速的对比结果，对照高速公路日常管理模式而言，其畅通状态所占比率在30%～45%，其平稳状态在45%～55%，其拥堵状态在15%～10%.形成测试表明全面有效.与国内外态势相关系统相比，虽然单指标不能全面客观地反映该路段的交通状态，但是在大部分情况下已经能够满足实际需求，进一步需研究如何在普通交通信息服务和专业交通控制管理中，实现基于单指标和多指标的交通状态估计方法的有效结合.

[1]施俊庆,李志强,李素兰,等.考虑双向交通的城市路网交通流元胞自动机模型[J].交通运输系统工程与信息,2017,17(2)：90-96.[SHI J Q,LI Z Q,LI S L,et al.A cellular automaton model of urban road network considering bidirectional traffic[J]. Journal of Transportation Systems Engineering and Information Technology,2017,17(2)：90-96.]

[2]李颖宏,潘佳琪.基于Optima的实时在线交通流预测方法研究[J].交通运输系统工程与信息,2017,17(2)：119-125.[LI Y H,PAN J Q.Real-time and online traffic flow prediction based on optima method[J].Journal of Transportation Systems Engineering and Information Technology,2017,17(2)：119-125.]

[3]李林超,何赏璐,张健.时空因素影响下在线短时交通量预测[J].交通运输系统工程与信息,2016,16(5)：165-171.[LI L C,HE S L,ZHANG J.Online shortterm traffic flow prediction considering the impact of temporal-spatial features[J].Journal of Transportation Systems Engineering and Information Technology,2016,16(5)：165-171.]

[4]XIA J,CHEN M.Defining traffic flow phases using intelligenttransportation systemsgenerated data[J].Journal of Intelligent Transportation Systems,2007,11(1)：15-24.

[5]XIA J,CHEN M.A nested clustering technique for freeway operating condition classification[J].Computer-Aided Civil and Infrastructure Engineering,2007,22(6)：430-437.

[6]SUN L,ZHOU J.Development of multiregime speeddensity relationships by cluster analysis[J].Transportation Research Record：Journal of the Transportation Research Board,2005,1934(1)：64-71.

[7]YANG H,QIAO F.Neural network approach to classification oftraffic flow states[J].Journalof Transportation Engineering,1998,124(6)：521-525.

[8]OH C,TOK A,RITCHIE S G.Real-time freeway level of service using inductive-signature-based vehicle reidentification system[J].IntelligentTransportation Systems,IEEE Transactions on,2005,6(2)：138-146.

[9]PARK B B.Hybrid neuro-fuzzy application in shortterm freeway traffic volume forecasting[J].Transportation Research Record：Journal of the Transportation Research Board,2002,1802(1)：190-196.

[10]孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008,19(1)：48-61.[SUN J G,LIU J,ZHAO L Y.Clustering algorithms research[J].Journal of Software,2008,19(1)：48-61.]

[11]AZIMIM,ZHANG Y.Categorizingfreewayflow conditions by using clustering methods[J].Transportation Research Record：Journal of the Transportation Research Board,2010,2173(1)：105-114.

[12]HASTIE T,TIBSHIRANI R,FRIEDMAN J,et al.The elements of statistical learning：data mining,inference and prediction[J]. The MathematicalIntelligencer,2005,27(2)：83-85.

[13]BARALDI A,BLONDA P.A survey of fuzzy clustering algorithms for pattern recognition[J].Systems,Man,and Cybernetics,Part B：Cybernetics,IEEE Transactions on,1999,29(6)：778-785.

上一篇：客户配送要求变动下的VRPSDP干扰管理优化
下一篇：北京交通大学交通系统科学与工程研究院简介

免责声明

我们致力于保护作者版权，注重分享，被刊用文章因无法核实真实出处，未能及时与作者取得联系，或有版权异议的，请联系管理员，我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!

多变量聚类分析的高速公路交通流状态实时评估

0 引言