公交车驾驶员风险驾驶行为画像技术研究

时间：2024-05-04

时玥,刘松岩,崔玺

(1.北京工业大学北京市交通工程重点实验室,北京 100124;2.北京公交集团,北京 100161)

0 引言

公交车作为一种专用车辆,具有公共属性强及载客量大的特点,且一旦发生事故往往容易造成群死群伤,交通事故后果严重,社会影响较为恶劣。因此,诸多学者对公交驾驶行为风险相关问题开展了大量研究,但研究多为驾驶行为评价、驾驶行为识别及驾驶员风格分类方面的研究,研究对象多为小汽车和货运车辆。

一是驾驶行为评价。吴紫恒等[1]提出了结合模糊C均值聚类和BP神经网络的驾驶行为评价方法。该算法避免人为主观因素的干扰,评价结果更加客观准确。王海星等[2]采用车联网数据,结合因子分析完成参数转化和模糊C均值聚类方法,对危险货物货运车辆的风险驾驶行为进行评价。

二是风险驾驶行为识别。李开放等[3]利用主成分分析法对数据进行降维,利用K-means算法和高斯混合聚类算法对降维结果进行二次聚类,根据聚类结果训练BP神经网络,用训练好的模型对工况进行实时识别,进而得到不同工况的速度阈值用于超速行为识别。

三是驾驶行为分类。Fugiglando等[4]使用控制器局域网(Controller Area Network,CAN)数据对驾驶员进行集群化,采用的数据类型包括油门踏板位置、制动踏板压力、方向盘角度等。通过主成分分析和K-means聚类进行无监督学习,提供近实时的分类。刘强等[5]运用K-means聚类方法进行驾驶风格分类及标签体系构建,并对4类驾驶风格进行不同经典场景下的总结分析。朱凯家[6]基于蚁群算法改进K-means的聚类算法,将不同天气状况下的速度及加速度作为聚类指标,完成驾驶行为分类,将驾驶行为分为一般激进型、平稳型、偏激进型3种,算法优化了聚类中心的选取和聚类时间,得到了更为可靠的结果。Martinussen等[7]同时采用驾驶行为问卷和驾驶技术问卷,采集了驾驶员主观信息,并利用K-means聚类算法将驾驶员分为高技术安全型驾驶员、激进危险型驾驶员、低技术危险型驾驶员和保守安全型驾驶员。

由上述研究可以看出,大部分学者采用聚类的方法对驾驶员的驾驶行为进行挖掘分析,对获取的数据进行用户画像能够详细地描述公交车运行特征,但已有研究多以小汽车及货运车辆为研究对象,公交车驾驶员个体的风险驾驶行为画像研究较少,且未进一步挖掘驾驶员群体在特定公交驾驶场景下的驾驶行为。本文基于公交轨迹数据、车载装置DMS报警数据及道路信息数据等多个数据集,以北京地区公交车7天的运行相关数据作为研究对象,提取公交驾驶行为特征参数,采用因子分析和K-means聚类结合的方法,挖掘公交驾驶员个体的驾驶行为特征及规律,识别出风险较高的驾驶员并对高风险驾驶员群体进行进一步画像研究,以此响应国家公交车辆运行监管的要求,帮助公交企业加强驾驶员培训,提升安全生产及管理水平。

1 数据采集及处理

1.1 数据采集

本文已有数据为北京公交2022年12月5日至2022年12月11日的5条公交线路。数据来自公交车主动安全预警系统、驾驶员异常驾驶行为识别系统、公交车智能车载终端。已有数据集包括公交GPS轨迹数据、车载装置DMS报警数据、实地调查得到的道路信息数据、驾驶员基本信息数据及公交车路单数据。

1.2 数据处理

将采集到的数据进行选择,将5条公交线路的25辆公交车的115名公交驾驶员作为研究对象,对数据进行如下处理。

1.2.1 无效数据处理

遍历数据集后发现,数据集中存在部分列内容缺失比例过高的现象,判断各列值的空值比例,确定该列值是否有效,删除空值比例大于60%的数据列。

1.2.2 坐标转换及插值

GPS提供的数据中使用的坐标系为WGS-84大地坐标系,和道路信息数据中的百度地图的坐标系不能通用,因此首先需要将GPS数据进行坐标转换,使用百度API中坐标转换的接口将GPS设备获取的角度坐标转换为bd09ll(百度经纬度坐标),并返回json格式的结果。

对转换坐标后的数据进行时间序列插值,用linspace函数均分时间插值后对“经度_84”“纬度_84”“经度_baidu”“纬度_baidu”“海拔”及“速度”进行一维插值,对2个相邻的方向角进行象限判断,计算夹角后进行插值,最终得到间隔1 s的数据,并完成加速度、转弯率的计算。加速度计算公式为a=(vi+1-vi)÷3.6,转弯率计算公式为ω=|(θi+1-θi)/ΔT|。

1.2.3 数据匹配及筛选

将各个数据集通过相同列索引进行数据集间的匹配并筛选结果数据中的“仓库行车方案类型”列,将值为“运营”的车辆筛选出来,作为研究对象。

1.2.4 不良驾驶行为识别

(1)超速行为。

将北京公交车城市道路非城市快速路路段的最高时速为50 km/h,主干路为50 km/h,次干路为40 km/h,支路为30 km/h,路段上有限速标志的依照实地调查得到的数值作为判断超速行为的标准。

(2)急加速急减速行为。

由于公交车的载客属性,在运行过程中的急加速和急减速行为容易造成车内乘客的不适甚至是摔倒现象,根据已有的研究中考虑了乘客舒适度及在车厢甲板行走安全因素的急变速阈值[8],本文将急加速的阈值确定为A加=2.5 m/s2,当加速度a>A加时判定为急加速,急减速的阈值确定为A减=-2 m/s2,加速度a

(3)频繁加减速行为。

频繁加减速行为的出现是由于交通环境的复杂,需要频繁加速减速进行速度控制规避风险,另一种则发生在交通流拥挤时需要保证与前车有足够的安全间距而不断变速。首先根据a>1.2 m/s2或a<-2 m/s2对加速度进行判断,如式(1)所示,n用来标记是否满足判定条件,为更简约地统计符合阈值的个数,将a>1.2 m/s2的数据标记为1,将a<-2 m/s2的数据标记为-1,其余的标记为0,然后对60 s内的1与-1进行计数,计数总数超过3个的时间区间认为公交车出现频繁加减速的行为。

(1)

(4)急转弯行为。

在行驶过程中速度偏高时容易发生急转弯行为,急转弯时横向加速度较大,乘客容易出现失去平衡的情况,因此急转弯行为也是影响公交车运行安全的因素。本文根据已有研究得出,急转弯行为根据行驶平均速度及方向角变化值进行判定,以窗口长度为5的滑动窗口对数据进行遍历,当窗口内的v>20 km/h且ω>90°时认为公交车出现急转弯行为。转向角计算公式如式(2)所示。

(2)

转向角值判断如式(3)所示,其中status表示是否满足ω>90°这一判定条件,满足时status为1,反之,status为0。

(3)

1.3 数据空间连接

首先,通过Python将交叉口、路段的起终点构造线要素,利用公交站、风险点位坐标构造点要素。其次,生成交叉口、路段和公交站的缓冲区,交叉口缓冲半径设为20 m,公交站缓冲半径设为30 m,路段缓冲半径设为15 m。最后,完成空间连接,以风险点位数据为基准,运用sjoin函数完成对不良驾驶行为数据及dms报警数据与道路信息数据的空间连接,得到发生风险驾驶行为的空间位置(交叉口、公交站或路段)。

1.4 指标选取

本文共选取了10个常见指标,分别为平均加速度及加速度标准差、平均减速度和减速度标准差、不良驾驶行为次数和持续时间、异常驾驶行为指数、年龄、驾龄和参与工作时间。由于在不同等级道路上,公交车运行速度限制不同,故不将速度作为划分驾驶员类别的指标。

2 画像标签提取

本文采用因子分析中的主成分分析进行指标降维,通过因子可行性验证,主成分分析后得出KMO值为0.810,表明各指标之间有较强的相关性。

通过SPSS降维中的因子分析功能,选择主因子分析并描述其系数相关性矩阵及KMO和巴特利特球形度检验,利用最大方差法进行因子旋转得出其旋转后的解,并输出旋转后的成分矩阵如表1所示。

表1 旋转后的成分矩阵

根据载荷绝对值越大的因子与变量越接近的规则,特征变量共分为3类,成分1与平均加速度、平均减速度、加速度标准差及减速度标准差较为靠近,这类速度皆与速度相关参数相关,故将这一类参数构成的特征变量命名为驾驶风格偏好特征变量;成分2与年龄、驾龄、不良驾驶行为持续时间及不良驾驶行为总数较为密切,不良驾驶行为多与驾驶员的自身特征相关,故将此类命名为驾驶员个体偏好特征变量;成分3与异常驾驶行为指数及参与工作时间相关,2个指标代表了驾驶员的安全态度及驾驶经验,故将此类命名为违规偏好特征变量。

3 聚类分析

聚类方法采用K-means聚类,对数据进行归一化处理后,通过确定的3类特征变量及相关指标分别进行聚类,并结合手肘法对最优聚类数进行判断。

3.1 数据归一化

为统一不同数据指标的量纲,需要对数据进行归一化处理,方便对比每个指标之间的关系,研究中的归一化计算公式如式(4)所示[9]。

(4)

其中,x为指标单一样本的观测值,μ为研究样本中某一指标的总体平均值,σ为研究样本某一指标的总体标准差。

3.2 K-means聚类原理

K-means聚类是一种典型的无监督学习的算法,SPSS自动设置初始中心点并把所有样本值分到各中心点所在的类中,针对每一个类别里的所有点,计算所有点的平均值,生成新的中心点,并不断重复迭代直至收敛。其目标函数如式(5)所示。

(5)

其中,n为数据集中点的总数目,K为聚类数,mi为簇中心位置,对于riK,当xi属于第K个类时,riK=1否则riK=0。最终的目的是要求解mi和riK。

3.3 手肘法原理

手肘法中运用SSE的趋势变化拐点来判断最优的聚类数(即K值),确认最优K值。需要利用Python进行计算,SSE值公式如式(6)所示。

(6)

其中,SSE为误差总平方和,K为最优K均值聚类数,Ci为第i簇,wp为Ci中的一个观测值,mi为簇中心即聚类中心位置。

3.4 驾驶员驾驶行为聚类过程

通过SPSS软件分类功能中的K-均值聚类,选择样本收敛准则为0,并选择输出聚类中心、与聚类中心的距离,从2次开始调整聚类数进行聚类,与最优K值进行比较,最终选定聚类效果好且解释性好的K值,并对聚类结果中的类别进行命名,确定每个类别的风险程度排名。

3.4.1 驾驶风格偏好

手肘法及聚类结果如图1(a)所示,在K=4时斜率明显减小,故驾驶风格偏好中将驾驶员个体聚成4类,结果如表2所示,4个聚类簇中包含的个案数目较为均衡,聚类效果较好。如图1(b)所示,平均加速度与加速度标准差成正相关,平均加速度升高则其速度标准差相应升高,同样平均加速度与减速度成负相关。

图1 驾驶风格偏好特征结果

对聚类结果进行分析可以看出,如表(3)所示,聚类共得出4个类别,根据其聚类中心偏离0的程度可以判断其驾驶行为的激进与否,分为激进型、较激进型及平稳型3大类。故将各类别命名如表3所示,其中激进型驾驶员其加速度相关指标的风险程度大,需要对其加速度指标进行持续监控并进行督促、改进,并加强驾驶技能和驾驶平稳性的培训,而平稳型驾驶员的相对风险程度较小。

3.4.2 驾驶员个体偏好

通过手肘法判断如图2(a)所示,斜率突变发生在K=4时,故将K=4作为最优K值,并将其可视化为散点图,如图2(b)所示,驾龄与不良驾驶行为数及不良驾驶行为持续时间呈负相关,不良驾驶行为次数越多其持续时间越长,聚类后分类较为明显,结合表4,聚类后的个案在每个类别中分布均匀,聚类效果较好。

图2 驾驶员个体特征结果

表4 驾驶员个体偏好聚类各类别数量

如表5所示,对聚类中心进行分析可以看出年龄及驾龄中类别3最高、类别4最低,据此依照年龄将驾驶员分为年长驾驶员、中年驾驶员及年轻驾驶员3类,根据驾龄将驾驶员分为成熟型、进阶型及新手型3类,并根据不良驾驶情况将驾驶员分为平稳驾驶型、较平稳驾驶型、较风险驾驶型及风险驾驶型,故将各类别命名如表5所示,其中年轻新手风险型驾驶员在驾驶员中风险程度更大,而年长成熟平稳型驾驶员的不良驾驶行为最低,即风险程度小于其他3类驾驶员。

3.4.3 违规偏好

违规偏好是以驾驶员产生异常驾驶行为等分散驾驶员注意力的危险行为为指标进行聚类,找出其参与工作时间与其违规偏好的规律。手肘法结果如图3(a)所示,其在K=3和K=6时均出现斜率突变的拐点,为了更清晰简洁地解释聚类结果,最终确定以K=3作为最优得到K值。如散点图3(b)所示,参加工作时间与异常驾驶行不具有正负相关性,如表6所示,聚类后的3个类别的分类明显,聚类效果较好。

表6 违规偏好聚类各类别数量

对聚类中心进行分析,如表7所示,3类可分为工作时间短且异常驾驶行为少、工作时间长且异常驾驶行为少及工作时间短且异常驾驶行为多的3类驾驶员,第二类驾驶员的异常驾驶行为指数高于平均值,解释为参与工作时间越久的驾驶员经验丰富,对自己的能力非常自信,使得其安全意识有所下降。本文对这3类驾驶员的类别进行命名,其中危险型驾驶员需要进行密切关注,风险程度明显高于其他2类,安全型驾驶员的风险程度在3个类别中最低。

表7 违规偏好最终聚类中心

3.5 驾驶员风险驾驶行为画像

根据每个特征变量的聚类结果,每个特征划分了3或4个类别,均存在风险程度高低的变化,能够从中判断出需要特别关注的公交驾驶员个体及群体。对结果中每个驾驶员在各个特征中的类别划分进行排列组合,将包含严重风险的驾驶员归为一类,具体划分标准为:若驾驶员在某一个特征中出现在风险严重程度最高的类别,则将其划分为高风险人群;若驾驶员在多项特征中皆为风险程度排名中间的类别,则将其划分为中风险人群;其余驾驶员则划分为低风险驾驶员。最后将驾驶员划分为3类风险等级,划分结果如表8所示。

表8 驾驶员风险类型划分

将画像后的3类驾驶员的3个特征变量制作成箱线图,如图4所示,通过分布可以看出当驾驶员风险等级升高时,整体加速度分布都不断升高,中低风险的数据更加集中,高风险驾驶员的数据较为分散,可解释为部分驾驶员在某一特征中的风险程度较大,极具危险性,因此被划入高风险驾驶员人群。

图4 各风险等级驾驶员不同特征下的箱线图

3.6 高风险驾驶员风险驾驶行为画像

上文所识别的不良驾驶行为数量较多,经对比,频繁加减速行为数量明显高于其他行为,且样本量大,故对其进行进一步研究。

如图5所示,速度主要分布区间为14 km/h～28 km/h,分布较为集中,在公交站位置的频繁加减速行为最多,与公交车进出站的行为相匹配;而路段位置的速度分布曲线相较于公交站和交叉口更偏于高速。对比加速度,加速度分布多大于0,仅有少部分点位于-2.5 m/s2附近,3个不同位置的加速度中值。

图5 频繁加速和减速行为不同指标分布

异常驾驶行为中接打电话报警及驾驶员异常报警样本量过低,故未考虑这2类报警类型。下文将通过分神驾驶及疲劳驾驶报警2个类型,进一步探究高风险驾驶员人群在各报警类型中的特征。

如图6和图7所示,疲劳驾驶行为的速度分布更加分散,公交站位置分布在0～40 km/h,交叉口及路段位置分布在0～50 km/h,而分神驾驶行为在公交站及交叉口处的分布相近,为8～15 km/h,路段位置速度集中在0～30 km/h。疲劳驾驶行为的分布区间上限均高于分神驾驶行为,具有更大的风险性。

图6 疲劳驾驶行为速度相关指标分布

加速度分布中,疲劳驾驶行为出现多个峰值,公交站位置中,加速度值在±3 m/s2附近出现了较明显的峰值,而路段位置主要集中在0附近。分神驾驶行为的加速度范围明显低于疲劳驾驶行为,公交站位置分别在3 m/s2和0附近出现明显峰值,在路段中,加速度小于0的分布在-1.4 m/s2附近,在负值范围内相较于公交站和交叉口出现更大减速度值。故高风险驾驶员在疲劳驾驶和分神驾驶中拥有更大的加速度绝对值,且疲劳驾驶的加速度和减速度具有更大的风险性。

如图8和图9所示,从提取到异常驾驶行为发生时的实际运营里程(距离包含了加气和充电环节)可以看出,出现疲劳驾驶频数最高的实际里程分布在13.3 km、15.5 km、17.6 km附近,在路段位置的发生里程在27 km附近出现了较高频率,而分神驾驶的发生实际运营里程主要集中在15 km附近,与疲劳驾驶较为相似。5条公交线路的长度为15～25 km,从图中可以看出疲劳驾驶及分神驾驶多出现在运营路线的后半程中。

图8 疲劳驾驶行为运营里程指标分布

图9 分神驾驶行为运营里程指标分布

综上所述,在以上3个最常发生的风险驾驶行为中,高风险驾驶员在公交站和路段上出现了更多的风险驾驶行为,且在速度和加速度2个指标中的分布范围更加更广,存在风险较高的值,在实际运营里程方面,分布相似且主要集中于15～17 km。

4 结语

本文对公交车驾驶员进行风险驾驶行为聚类,并对高风险驾驶员在特定时空场景下的风险驾驶行为进行特征画像。本文采用了K-means聚类算法对115名公交车驾驶员进行驾驶行为聚类分析,根据聚类结果的风险程度进行统计分析,将驾驶员划分为低风险型、中风险型及高风险型。高风险驾驶员速度偏好特征中各项指标高于平均值,驾驶更激进;驾驶员个体特征中不良驾驶行为次数高于均值,驾驶习惯较差;违规偏好特征中,异常驾驶行为的次数和严重程度综合指标高于均值。

本文对判别出的高风险驾驶员的风险驾驶行为进行群体画像,进一步研究了这类驾驶员在不同空间位置、不同时段中的风险驾驶速度、加速度或运营里程分布特征,得出其在部分空间位置场景下的特征规律。研究发现驾驶员在公交站及路段中更具风险性,同时在对公交车运行安全监管的过程中,需要加强对运营路线中后段的监管力度。

通过对高风险驾驶员群体的特定场景下的风险驾驶行为特征画像,可以为公交企业的驾驶安全意识培训及操作技能训练评估提供方向,对特定场景集中监管,提高公交驾驶员的安全驾驶意识,培养驾驶员群体安全运行车辆的操作习惯,最终提升公交运行的安全性和经济性。