时间:2024-05-04
唐帅+李青
摘 要:基于电子地图的路况实时预测在交通管理中起着非常重要的作用。本文提出了一种基于出租车大数据和生成式学习算法使用历史出租车GPS数据预测事实车速并与真实事实车速进行比较,从而实现城市交通状况实时分析的思路,并探讨其在MapReduce模型下的实现。
关键词:大数据;生成式学习算法;MapReduce
一、引言
智能交通系统是未来交通系统的发展方向,它是将先进的信息技术、数据通讯传输技术、电子传感技术、控制技术及计算机技术等有效地集成运用于整个地面交通管理系统而建立的一种在大范围内、全方位发挥作用的,实时、准确、高效的综合交通运输管理系统。智能交通可以有效地利用现有交通设施、减少交通负荷和环境污染、保证交通安全、提高运输效率,因而,日益受到各国的重视。
本文提出了一种基于出租车大数据和生成式学习算法使用历史出租车GPS数据进行城市交通状况实时分析的思路,并简略的讨论了用MapReduce编程模型实现模型的方法。
本文首先对提出方法的大体思路进行简单介绍,其次对算法的详细设计进行探讨,再次探讨本文提出的方法在MapReduce编程模型下的实现。最后对本文的工作做出总结。
二、基本思路
针对出租车GPS数据集的特点设计生成式学习算法,并使用历史数据对算法进行训练。使用训练得到的生成式学习算法,根据实时数据中除去车速以外的部分对车速进行预测,并将预测值与实际车速进行对比,依此对交通拥堵状况做出判断(如果某区域大部分出租汽车的实际车速明显低于生成式学习算法基于历史数据得出的预测车速,则认为这个区域此时刻的交通状况比较拥堵)。整体设计流程如图1。
二、算法详细设计
(一)原始数据集
本文所用数据均来自数据堂的独家数据,包括北京市12000辆出租车在2012年11月所产生的所有GPS数据。完整全面地记录了该市出租车的移动轨迹。数据格式如下:
数据以ASCII文本表示,以逗号为分隔符,以回车换行符(0x0D 0x0A)结尾。数据项及顺序:车辆标识、触发事件、运营状态、GPS时间、GPS经度、GPS纬度、GPS速度、GPS方向、GPS状态。数据示例:
164577,4,0,20121101095638,116.4711838,39.7105064,10,328,1
127415,4,0,20121101095638,116.4567719,40.0033951,28,204,1
(二)数据预处理
以样本数据集为例。样本数据集中共有20200条记录:
key的选择:
在所有记录中GPS状态的值均为1(有效),对速度预测没有帮助。综合考虑GPS经度和GPS纬度,将二者映射到一个新的属性(GPS位置)。所以算法考虑的作为输入的属性有车辆标识、触发事件、运营状态、GPS时间、GPS位置、GPS方向。算法将GPS速度作为输出。
其中,GPS速度,GPS位置的取值为连续变化的量,而GPS时间、GPS方向的取值虽然是离散的,但是取值可能过多。所以对以上四个属性进行分箱。
综上所述,作为算法输入的所有属性及其取值分别是:
(五)基于MapReduce的程序设计
原始出租车GPS数据集大小压缩后为15.1G,压缩前50G左右。虽然历史数据的分析阶段没有实时性的要求,然而考虑到数据量的庞大,这对单台计算机来说依然是十分艰巨的任务。而采用MapReduce思想对算法进行实现可以分布式处理的优势较快、较轻松的完成历史数据的分析工作。而历史数据分析完成后,利用该阶段学习得到的参数进行实时分析时,由于计算量较小,采用分布式计算带来的调度和通信上的开销甚至可能会使它的优势显得微不足道。所以此阶段可以采用集中式处理的方法。
历史数据分析阶段的计算特点十分适合使用MapReduce的思想进行程序设计。以p(Y)为例:
Map:假设完整数据集中共有N条记录,共有j个map处理器。则可将完整数据集分成j个子集。每个子集包含N/j条记录。所有map处理器对数据进行并行处理。map阶段结束后,共输出N条(Y,1)记录。其中Y∈{Y1,Y2,…,Yn}
Shuffle:将map步得到的N条(Y,1)记录依照Y的值分配给n个Reduce处理器(假设Y共有n个取值)。
Reduce:每个Reduce处理器进行并行处理。最终输出n条(Y,C)记录。其中C代表每个Y取值在数据集中出现的次数。
其他属性的计算可以使用同样的方法进行处理。
(作者单位:山东科技大学)
参考文献:
[1] 李小菁.基于GPS系统的城市交通状况实时检测与预测研究[D].中国海洋大学,2004.
[2] 王夷.城市路网实时状态研究[D].上海交通大学,2007.
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!