时间:2024-05-04
高静文 蔡永香 甘艺垚
摘要:[目的]运输行业管理部门利用车联网系统获取了大量驾驶员的时空轨迹点数据,而对行车轨迹点数据进行挖掘分析可以评估驾驶员的安全驾驶行为习惯,管理部门可以据此有针对性地对驾驶员进行教育监管,有助于规避风险,提高交通安全。而原始的轨迹点数据由于GPS信号被遮挡或者干扰等原因,会包含大量噪声及一些错误信息,需要有效清洗才能使用。[方法]文中以运输车辆原始轨迹点数据为研究目标,分析总结出了其中常见的六类数据点异常现象,包括无效属性信息、时间信息错误、车速零点漂移、速度变化率异常、信息量过少的轨迹路段、经纬度漂移等问题,并针对这些具体的问题提出了相应的数据清洗方法;[结果]最后将该方法成功应用于某运输企业提供的车辆轨迹数据点的清洗。[结论]结果表明,文中提出的数据清洗方法能够有效去除异常数据,为后续驾驶员行为评估提供高质量数据。
关键词:数据清洗;驾驶行為;车辆轨迹;可视化表达;时空数据
中图分类号:TP311 文献标识码:A
文章编号:1009-3044(2019)36-0189-04
1概述
随着我国运输车辆日益增多,交通肇事率呈现递增态势,迫切需要提升车辆运行安全水平,而司机的驾驶行为习惯是最直接影响道路交通安全的因素。现在大部分运输车辆都安装GPS设备,进入了车联网系统,能够自动采集行车状态信息,形成了数据量庞大的时空轨迹点数据。对这些行车轨迹点数据进行挖掘分析可以评估驾驶员的安全驾驶行为习惯,管理部门可以据此有针对性地对驾驶员进行教育监管,有助于提高运输安全的监管水平。然而有效的数据挖掘必须建立在高质量数据基础之上,如果是“Garbage in”,那必是“Garbage out”,因此在运输轨迹数据建模分析之前对原始数据进行清洗变得至关重要。
数据清洗是一种尽可能多的调整或去除有质量问题的原始数据而保留正确信息,使其具有更好的稳定性和代表性的数据处理方法[1-3]。当前关于数据清洗的研究主要集中于以下几个方向:Jarke等人[4]利用近邻排序算法比较排序后的相邻数据是否相等,按一定的规则合并或删除重复记录;Hido等人[5]使用统计的方法匹配不同类型数据所需的分布模型,再逐个数据进行检测发现离群值;郝胜轩[6]提出改进的基于双聚类的缺失数据填补算法,实验验证该方法可以实现对缺失数据填补的高效性;黄冠利等人[7]提出在GPS数据的存储端采用基于时间序列的算法分别对经纬度数据进行校验与调整,确保GPS软件产品的质量得到提升;刘子政等人[8]在[7]的基础上依据速度一时间序列的方差和均值判断漂移点,精准度相较于前者有所提升。这些方法基本上是针对一般性的数据异常或者某些特定异常(GPS定位漂移)情况的数据进行清洗。而实际运输车辆轨迹数据中存在多种特定的异常状况,本文专门针对运输车辆产生的轨迹点数据展开研究,分析了其中存在的异常数据类型,并提出了相应的数据清洗方法,最后将该方法应用于某运输企业提供的车辆轨迹点数据清洗。
2车辆轨迹数据异常分析
运输车辆时空轨迹数据在采集传输过程中,由于受到大气层、GPS设备自身弊端或故障、信号遮挡或其他信号干扰以及驾驶人员操作不当等客观或主观因素的影响,获取的部分轨迹数据出现了异常数据现象,这对基于这些数据挖掘驾驶员的驾驶行为模式产生了巨大影响[9]。
GPS采集的行车轨迹点数据一般包括了车牌号码、设备号、方位角、经度、纬度等多个参数,表l是某公司运输车辆轨迹点数据的参数说明。我们对大量原始运输车辆轨迹点数据进行分析,总结出原始数据存在以下六种异常现象:无效属性信息、时间信息错误、车速零点漂移、速度变化率异常、信息量过少的轨迹路段、经纬度漂移等。下面对这六种异常现象进行分别说明。
1)无效属性信息:轨迹点数据记录中存在部分属性字段完全为0的情况,如:我们获取的车辆轨迹点数据中有转向灯、左转向灯、手刹和脚刹等参数值均为零。产生这种现象的原因是GPS设备上获取这些参数的连接线未与车辆连接。
2)时间信息错误:部分时空轨迹点数据集中出现了时刻重复、时间前后颠倒等现象,如ti是前一时刻,ti+1,是后一时刻,出现了t+i-ti=0或ti>ti+1的现象,这可能是由于GPS接收机在接收待测卫星信号并进行信号变换处理时,接收机出现不稳定性故障,导致测量的GPS信号从卫星到接收机天线的传播时间出现误差[10]。如果用这样的错误时间信息数据计算速率等特征值,即速率a=(vi+1-vi)/(ti+1-ti),得到的结果会不真实。
3)车速零点漂移:时空轨迹数据中出现了当车辆静止时,车速非零值跳动现象。如:前一时刻车速vi-1=0,后一时刻车速vi+1=0,而当前时刻车速vi≠0。这可能是由于GPS终端设备受到外界信号十扰引起的。
4)速度变化率异常:欧洲共和体(EEC)与联合国欧洲经济委员会(ECE)标准对制动效能检验要求以及评价参数的限值都曾做出具体规定,详细内容如表格2所述。
表中M1是指不超过8座小客车;M2是指8座以上且总质量不超过5吨的客车;M3是指8座以上且总质量5吨以上的客车;N1是指总质量不超过3.5吨的载货汽车或牵引车;N2是指总质量在(3.5吨,12吨1的载货汽车;N3是指总质量12吨以上的载货汽车。
从表2中可以看出,运输车辆所能采取的最大制动减速度不能超过4.4m/S2,然而运输车辆驾驶行为特性决定了运输车辆在典型行驶工况下速度变化率一般不会超过2.5 m/s2[11],因此,速度变化率的参考阈值可以设置为[-4.4 m/s2,2.5 m/s2],数据中速度变化率超出这个区间外的为异常。
5)信息量过少的轨迹路段:每辆车的轨迹数据实际上是由多个行驶时段数据集合构成。驾驶员行为模式评估是首先基于单个行驶时段的数据进行行为方式提取,再基于多个行驶路段的情况对其行为模式进行评估,而行驶时间过短的轨迹路段很难分析驾驶员的行为模式,只有行驶时间足够长的数据才可能具有研究价值。因此,行驶时间过短、轨迹数据信息量过少的数据不具有相应的挖掘价值,需要予以删除。
6)经纬度漂移:由于GPS信号本身是一种电磁波,而这种电磁波的功率很小,信号经过传输至地面时会严重衰减,一旦传输过程中遇到信号遮挡、建筑物等复杂环境的反射,就会使得GPS所获取的数据点存在大量经纬度漂移现象[12],即轨迹点数据不在实际行驶的道路上。如果将轨迹点数据中的地理位置信息可视化表达在地图上就很容易发现异常的存在,如轨迹定位在了河流、高山上,或者突然离开轨迹原本所在道路线,出现在与之相距甚远的地图某处。如图1就是产生漂移,远离实际路线的轨迹点数据示例,与基础地理信息数据叠加,图中纵横交叉的曲线为真实道路网,图l(a)中的车辆轨迹点漂移到水体上;图l(b)中轨迹点漂移到的位置上并没有与之对应的可行驶的道路。
3车辆轨迹点数据清洗方法
原始获得的轨迹点数据一般都存在上述六种异常现象的一种或几种,必须经过相应的清洗和纠偏后使用,才能保证挖掘出有价值的信息。
对此,我们总结了一套清洗流程,如图2所示,包括过滤掉一些无效的、错误的数据点,对一些异常数据点进行纠偏修复等。下面对具体的清洗方法进行阐述。
1)清洗无效属性信息数据。将属于字段信息采集不完整(如属性值全为0),对研究分析的内容没有信息贡献的项予以剔除;
2)清洗时间信息错误数据。因正常行驶时运输车辆轨迹点数据的采集时l司间隔大致相等,从初始时刻开始,依次计算轨迹点数据的相邻时刻差At=ti+1=ti,若存在A≤O,则ti与ti+1,为错误疑似点;再计算At=ti+2-ti+1,若At‘也小于等于0,判定错误时间信息点是ti+1,;若At‘大于0,则判定错误时间信息点是ti,予以剔除。
3)清洗车速零点漂移数据。首先,对轨迹点数据的速度值进行检查,看是否存在前一时刻和后一时刻GPS采样点的速度为0,即vi+1=O,vi+1=0,但当前点的速度不为0即vi≠0的情况;其次,进行车速零点漂移异常判断,看这三点的经纬度的值是否相等,即lati-1=lati+1=lati,Ingi-1=lngi+1=lngi,如果是,则属于车速零点漂9移情况;最后,进行速度异常值修复处理,将当前点的速度置为O,即vi=O。
4)清洗速度变化率异常数据。对所有运输车辆的速度变化率进行计算,计算公式为ai=(vi-vi-1)/(ti-ti-1)这里将第i点与第i-1点之间计算的加速度作为第i点的加速度。根据计算结果剔除速度变化率超出阈值的轨迹数据点。
5)清洗信息量过少的轨迹路段,清洗方法包括:分段、检查和舍弃。《道路交通安全法实施条例》第六十二条规定:连续驾驶机动车超过4小时应停车休息,停车休息时间不少于20分钟。我们对数据集中大量的车辆数据进行观察,发现在一次运输活动结束后(即一条轨迹采集完成后),距离下一次GPS记录至少间隔两小时。因此可以设定一定的时间间隔阈值对GPS采集数据点进行轨迹分段。
分段后,对每条轨迹点数据进行检查。判断轨迹点信息记录数量是否过少,将轨迹点数量少于某一特定阈值的轨迹认为是需要舍弃的轨迹。
6)清洗经纬度漂移异常数据,包括经纬度漂移异常数据的发现与修复。经纬度漂移异常数据可以采用位移和位置异常两种方式进行监测发现:
(1)位移数据异常判别
经过前期异常清洗后的轨迹点数据是严格按照时间递增顺序排列的,按照车辆行驶的速度和时间差可以估算出两点间的最大位移量X,而按照车辆行驶轨迹中的经纬度数据也可以求出两点间的距离L,如果L大于X的数倍,显然轨迹数据中的地理位置存在异常。例如,表3是某车辆的第5929个和5930个采样点数据,分别标记为点A和点B。A点坐标(116.966693°,28.999466°),B点坐标(116.96692° ,28.999585°),而当前汽车速度均为93 km/h,时间差为1秒。根据两点经纬度位置数据,采用公式(1)-(3)计算出两点间最小球面距离L为25.65254米,其中公式(1)是已知A、B两点的经纬度后,利用球面余弦公式求得θ角的余弦值,公式(2)是将角度θ转换成弧度c,公式(3)根据地球半径R和弧度c得出球面上A、B两点间的距离L。而依据其行驶速度和时长,可以按公式4(两点中的速度最大值与时间差的乘积)求出其最大位移量X为25.83333米,令K=L/X,若K超过一定的阈值范围,则视为异常。
(2)位置数据异常判别
有些经纬度漂移的数据离开了实际行驶的道路,但并不总是表现出明显的位移数据异常特征,这就需要通过地理信息科学中的缓冲区分析和叠置分析方法来进行位置异常判别。
缓冲区分析是对一组或一类地图要素按照设定的距离条件,围绕这组要素形成具有一定范围的多边形实体,从而实现数据在二维空间扩展的信息分析的方法。叠置分析是将代表不同主题的各个数据层面进行叠置产生一个新的数据层面,用来提取空间隐含信息的方法[13]。我国《城市规划定额指标暂行规定》中将道路划分为40—70米,30—60米,20—40米,16—30米等宽度的四级道路。我们可以按照这个标准设置道路缓冲带,再与GPS轨迹点进行叠置分析,即Point n Area,落在缓冲带范围外的轨迹点即可视为位置异常。
对于判定为漂移的经纬度属性数据需要进行修复。取删除的每个异常漂移点的采样时间与瞬时速度的乘积进行累加,得到該段缺失轨迹的轨迹距离,再与可视化的底图路线进行匹配找到实际轨迹路线,以轨迹缺失的开始点为起点,沿着道路线,按照点与点之间的间距进行轨迹点标定,最终将轨迹补充完整。
4车辆轨迹点数据清洗实例
本文的清洗应用实例采用的是第七届“泰迪杯”数据挖掘挑战赛的竞赛数据,来源于交通运输部公路科学研究院汽车运输研究中心的行车时空轨迹点数据,采集时间为2018年7月30日至2018年10月26日,原始数据中平均一辆车约保存100000条记录,数据采样间隔为1秒,属于高频数据,数据采样均匀。
按照前面所述的清洗方法,我们从OpenStreetMap(简称OSM)地图上下载得到了全国道路网矢量线状数据,并利用其栅格底图,基于Arc GIS平台,采用Java语言编程实现了数据的清洗。清洗无效属性信息数据时,剔除掉了左转向灯、右转向灯、手刹、脚刹等数值均为零的属性值;去掉了时间信息错误数据;修复了车速零点漂移数据;以[-4.4m/S2,2.5m/S2]作为速度变化率阈值,将速度变化率异常的轨迹点予以删除;在清洗信息量过少的轨迹路段时,首先我们以连续轨迹点之间的时差超过2小时的作分段处理,接着将记录数少于1500条的轨迹路段予以舍弃,这是因为我们获取的数据采样间隔为1秒,1500条记录相当于25分钟,也就是说将行驶时长小于25分钟的轨迹路段舍弃。
清洗经纬度漂移异常数据时,我们将位移数据异常判别的K值没置为1.5,将位置数据异常判别的缓冲区半径设置为35m,首先删除位移异常的轨迹点数据,接着再删除位置异常的轨迹点数据。
经过上述清洗步骤后,清洗结果可以以可视化的形式展示。图4是某车辆轨迹清洗前后的对比图。
从清洗前后对比图中可以发现,经过数据清洗后,表现异常的轨迹点得到了删除或修复,运输车辆轨迹点匹配到了相应的道路网上,这为车辆运输路线图的制作以及后续的驾驶行为挖掘提供了准确的依据。将清洗后的轨迹点在AreMap中按照时间顺序由点转成线,就能生成该车辆在数据采集的时间区段内的运输线路图,总共由5条轨迹路段组成,如图5所示。
5结论
道路运输行业管理部门通过车联网平台采集了大量的运输车辆时空轨迹点数据,本文针对数据采集传输过程中由于主观或客观因素而产生的六种不同类型的数据异常现象,提出了一套轨迹点数据清洗的流程和方法,包括过滤无效属性信息、清洗时间信息错误数据、修复车速零点漂移数据、剔除速度变化率异常数据、舍弃信息量过少的轨迹路段、清洗经纬度漂移数据等。我们将该方法应用于某运输企业原始车辆轨迹点数据的清洗,并将清洗前后的数据在可视化平台上进行对比,结果表明,清洗后的轨迹点更符合实际行车状态,清洗效果显著。
文中提出的数据清洗方法,能有效去除大量噪声数据,为后续挖掘分析驾驶员的驾驶行为习惯提供了有力保障。
本文数据为第七届“泰迪杯”数据挖掘挑战赛竞赛数据,来源于交通运输部公路科学研究院汽车运输研究中心,感谢竞赛主办方对数据的提供。
参考文献:
[1] Rajashree Y Patil,R V Kulkarni.A Review of Data CleaningAlgorithms for Data Warehouse Systems,[J]. Intemational Jour-nal of Computer Science and Information Technologies, 2012,3(5):5212-5214.
[2] Prema S Kulkarni,J W Bakal. Hybrid Approaches for DataCleaning in Data Warehouse[J]. Intemational Journal of Com-puter Applications, 2014, 88(18):7-10.
[3]冯士雍,倪加勋,邹国华,等.抽样调查理论与方法[M].北京:中国统计出版社,1998.
[4] Matthias Jarke, Manfred A leusfeld, Christoph Quix, et al.Ar-chifecture and quality in data warehouses: An extended reposi-tory approach[J]. Information Systems, 1999, 24(3):229-253.
[5] Shohei Hido, Yuta Tsuboi, Hisashi Kashima, et al.Statisticaloutlier detection using direct density ratio estimation[J]. Knowl-edge and information systems, 2011, 26(2):309-336.
[6]郝勝轩.数据清洗算法研究与实现[D].中国科学院大学,2015.
[7]黄冠利,王辉,徐华平.基于时间序列解决GPS信号定位漂移的研究[J].计算机工程与应用,2008,44(31):94-97.
[8]刘子政,李默颖,黄长青,等.顾及速度约束的基于时间序列GPS漂移数据处理方法[J].测绘地理信息,2017,42(1):14-18.
[9]康四林,李语强.GPS定位中的误差分析[J].天文研究与技术,2010,7(3):222-230.
[10]崔保延.GPS软件接收机基础[M].2版.北京:电子工业出版社.2007.
[11]侯聪,王贺武,欧阳明高.中美PHEV能耗评价方法对比研究[J].汽车工程,2015,37(1):1-8.
[12]金同雄.GPS卫星定位的应用与数据处理[M].上海:同济大学出版社,2003:207-215.
[13]汤同安,杨昕.AreGIS地理信息系统空间分析实验教程[M].2版.北京:科学出版社,2012.
【通联编辑:光文玲】
收稿日期:2019-09-13
基金项目:地理信息工程国家重点实验室开放基金课题资助(SKLGIE2017-M-4-6)
作者简介:高静文(1992-),女,安徽蚌埠人,硕士研究生,主要研究方向为地理信息可视化表达和智能数据处理;通信作者:蔡永香,副教授。
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!