当前位置:首页 期刊杂志

广义估计方程在交通事故频数建模中的应用

时间:2024-08-31

张宇杰 丁 剑 周文娜 李志斌

(东南大学交通学院 南京210096)

0 引 言

交通事故频数建模是交通安全研究领域常用分析方法,可以定量评估道路几何特征及交通流量等预测变量对于事故频数的影响,其结果对于交通事故数量预测、控制事故发生影响因素从而降低事故数量及提高交通安全具有重要意义。传统交通事故频数建模采用多年平均年交通事故频数分析已减少数据随机性,并采用极大似然估计法对模型中变量参数值进行估计[1-3,13]。

由于交通事故数据在记录与获取方面的问题,发展中国家学者在进行事故频次建模中往往受到小样本量问题的约束,导致极大似然估计结果存在偏差[4]。将每年的事故数据作为独立的观测值进行建模在小样本的情况下增加了数据量,但却忽略了每年事故数之间内在联系。从统计学的角度来看,数据之间的时间相关性很可能对模型精度造成不利影响[5]。近年来,形成了很多解释事故数预测模型中数据的时间相关性的算法,大多数研究表明带有时间相关的数据预测模型优于传统模型,但这些模型并不一定能很好的解决发展中国家所遇到的问题[6]。因此,有必要结合发展中国家特定的交通安全研究需求,为其选择合适的模型提供参考。

本文旨在评价广义估计方程算法在解决发展中国家学者们在交通事故分析时遇到的小样本数据和数据时间相关性之间的矛盾的效果。广义估计方程算法已经被应用于克服事故数据之间的时间相关性[5,7-8]。为达到研究目的,本研究采集了中国一条高速公路出口匝道的4年事故数据,分别采用了基于累积统计值和逐年统计值的传统广义线性模型以及基于广义估计方程算法的广义线性模型对事故数进行了估计,并比较了不同模型之间的效果。本文研究成果能够对发展中国家相关领域的学者在建立精确的交通事故数估计模型和推断事故统计值的影响因素方面提供有效信息。

1 广义线性模型与广义估计方程

广义线性模型已被应用于交通事故数建模,而广义估计方程也被用来说明纵向数据的时间相关性。累积剩余测试以及类分析也用于对模型的评价。

1.1 广义线性模型

广义线性模型是原始的线性回归的一种灵活的扩展,它允许响应变量和说明变量是其预测值的函数。广义线性模型最重要的性质就是其指定随机成分的概率分布的灵活性。在使用广义线性模型进行分析交通事故数时,随机成分多服从泊松分布或正态分布[4-5]。广义线性模型用于交通事故数建模的基本形式如下式:

式中:E{μ}为出口匝道每年事故数的期望;F1和F2分别为主线和匝道的每年的日平均交通量;Xj为第j个按年度累积的说明变量(j=3,4,…,J);βj为第j个被估计的系数 (j=0,1,…,J)。

广义线性模型中的参数按最大似然估计法求出[4]。但是在面临小样本建模的情况时,通常采取缩短数据时间间隔的方法来扩大样本。此时模型修改成以下形式

式中:E{ut}为第t年(t=1,2,3,4)出口匝道事故数的期望;F1(t)和F1(t)分别为主线和匝道的第t年的日平均交通量;XJ(t)为第t年的第j个说明变量。

1.2 基于广义估计方程的广义线性模型

式(2)中的每年的事故值之间有着一定的相关性,因此采用广义估计方程来计算式(2)中的系数。方程如下。

式中:Di=u/β为关于回归参数均值的倒数组成的J×T维矩阵;Vi为由下式定义的协方差矩阵[5]。

式中:Ai为以V(μit)作为第t个对角元素的对角矩阵;R(λ)为重复对象之间的时间相关性的一个T×T的矩阵;λ为相关性类型,其中λ=[λ1,…,λn-1];λi=Cov(Yt,Yk)(t,k=1,…,n-1,t≠k)(Cov为变量之间的协方差);T为年数。

在实际情况中,相关性矩阵的每一个元素难以确定,因此,Liang和Zeger[11]提出了一种“工作”矩阵的方法来解决基于广义估计方程的上述模型。通常使用的相关结构有以下4种:独立型、互换型、自回归型以及无组织型。

1.3 建模评价方法与指标

传统的拟合优度试验并不适合广义估计方程,因此我们选择残差累积试验和III型分析来评价各模型的效果。残差累积试验对连接函数的效果进行几何和数值两方面的检验。该方法不单纯 依 赖 于 样 本 数 目[7-8,10,12],如 果 模 型 是 正 确 的,残差值一般在0值附近,且残差关于任何坐标的图像没有系统的趋势。该试验的指标主要有:观察累积的最大绝对值和柯尔莫戈洛夫型上确界试验的p值。绝对值越小,p值越大,模型效果越好。III型分析主要用来确定变量的相对重要性[7-8]。其主要指标是每个变量的III型卡方。此外,较小的p值说明,变量较为重要。

由于广义估计方程的算法已经较为成熟,很多统计分析软件都已经具备相应的函数库。本文的数据分析在SPSS17.0中实现。在软件中,首先按以下步骤进入广义估计方程菜单Analyze-Generalized Linear Models-generalized estimating equations,再根据数据分析的需要在Repeated、type of model等选项卡中设置参数即可进行相应的数据分析[9-10]。

2 数据来源与实例分析

本文建模事故数据来自于2006~2009年我国某高速公路的32个地点的出口匝道。交通事故的统计信息见表1。可以看出事故频数的方差明显大于均值,因此本文事故数据存在明显的过度分散特征,采用负二项分布来拟合事故频次分布。而与事故发生相关的一些变量,如道路几何条件、极端天气比率以及道路设计速度等。

表1 独立因变量数据汇总Tab.1 Statistics of dependent variables

3 模型效果分析

由于本文所研究的事故数据具有离散性,采用随机成分服从负二项分布的广义线性模型较为合适。本节根据前文算法以及数据,对基于累积事故数和逐年事故数的广义线性模型以及基于广义估计方程的广义线性模型的建模效果分析。

3.1 广义线性模型估计

2种广义线性模型用于估计的数据有所不同。第1种模型(模型1)使用的是4年累计事故数的平均值,共32个样本。第2种模型(模型2)将4年每年的事故数都用于建模。样本量为128。根据式(1)和(2),研究谨慎选取了说明变量进行建模(至少在一个模型中有效,此变量才会用于建模)。分析结果发现,在90%置信水平下,模型2估计结果表明,主线、匝道交通量,道路坡度,极端天气率和右侧路肩宽度这5类因素与事故的发生紧密相关,而模型1只估计到极端天气率和右侧路肩宽2个因素的重要性,这与直观认识很不相符。

建模结果很有力的证明了样本量的扩大对于事故估计精度提高的作用。上述分析结果表明,在对事故数目分析遇到样本量较小的情况时,可以将每年的事故数看成一个独立对象进行分析来扩大样本量。这样有利于获得更加精确的预测模型,避免出现过大的偏差和错误的推断。这样的结论尤其对数据匮乏的发展中国家的学者有着重大意义。

传统的广义线性模型认为响应变量(本文中指事故统计值)是相互独立的,其实对于在每个地点随时间不断重复的纵向数据而言却并非如此。不同年份的事故数会受到与匝道固定性质有关的一些未被重视的因素的影响而产生关联性。但模型2并没有考虑时间相关性的存在,所以仍然会使模型的估计存在一定的偏差。

3.2 基于广义估计方程的模型估计

基于广义估计方程算法的广义线性模型用以解决将每年事故数独立化后产生的时间相关性问题。本研究对以下4种相关结构进行了实验:独立型、互换型、自回归型以及无组织型。模型估计结果见表2。

不难看出,在不同结构下,说明变量的系数和标准差几乎一致。这说明了广义估计方程算法的健壮性较好,即在协方差矩阵不一定准确的情况下仍能进行较好的估计[5]。虽然估计结果相近,但不同结构对于模型预测影响仍然存在。

估计时使用的协方差矩阵表示见表3。

而且在表2中,互换式结构的结果的最大绝对值最小,p值最大。这些分析说明互换式的工作结构较为适合本研究的数据特性。

互换式结构假定在同一个匝道的多次观测值之间相关性是不变的。表3中的2个连续观测值之间的相关性一直用0.271意味着同一个匝道的不同年份的事故数之间有着很重要的时间相关性。而这一相关性不应在建模中被忽略[5,7-8]。

根据上述成果,不难得出以下结论:①当每年的事故观测值独立化之后,数据之间存在明显的时间相关性;②互换式的工作结构是用广义估计方程建模时最适合本研究所使用的数据的。

表2 广义估计方程估计结果Tab.2 Model estimating results of GEEs

表3 估计的工作相关性结构Tab.3 Estimated working correlation structures

3.3 模型对比

由于前文已经对用累积的事故数和逐年的事故数建模的广义线性模型作了比较分析,此处不再赘述。本节主要对比前文中模型2和基于广义估计方程的广义线性模型(模型3)的结果。

通过对比表2中的数据,可以发现,模型2和模型3的系数是相近的,但是前者的标准误差明显大于后者。这是数据间的时间相关性造成的,而且变量对于事故发生的重要性也会因此下降。

因此本研究进行了III型分析来评价来检验说明变量的相对重要性。结果如表4所示。

表4 不同模型的III型分析Tab.4 Type III analyses for different models

与模型2相比,模型3的III型卡方值总体上要小,p值也相对大。由此可见,未对数据的时间相关性进行处理会对变量的重要性做出过高的估计。

本研究的成果也说明,在建模过程中如果不对时间相关性做出合适的考虑,事故数的变化就会被错误的归结于主要变量的变化,而非一些未被注意到的变量。传统的广义线性模型的预测效果实质上是受到一些未被注意到的变量影响的,所以,即使传统模型拟合的效果较好,该模型的论断仍有可能存在偏差乃至错误。

在90%的置信水平下,右侧路肩宽这一变量在模型2中重要性较高,但在模型3中却不然。不难看出,虽然在路肩较窄的匝道上事故相对多,但这不一定是路肩宽度造成的,如不良的路面、不安全的道路几何设计等不被注意的因素也会对事故的发生造成影响。如果路肩宽度这一因素在预测出口匝道的正常安全水平时没有被正确考虑,那么,事故高发区也就不能被准确的确定。用广义估计方程来解决数据的时间一致性提高了模型的精度和论断的准确性,为道路安全工作者在危险匝道采取正确措施提供了宝贵参考。

4 结束语

研究结果表明,由于样本容量的限制,基于累积统计值的模型预存费效果不佳。数据独立化之后的模型表现要强于前者,但由此产生了数据之间的时间相关性。而互换式结构下的广义估计方程模型准确把握了不同年份的事故数之间的相关性。

通过模型之间的对比,可以发现,传统模型容易低估说明变量的标准误差,从而对变量的重要性做出错误的论断。而基于广义估计方程的广义线性模型把握了数据之间时间相关性的特点,每个变量对事故的影响也被估计的更加精确。在当前数据集下,路肩宽度这一在传统模型中较为重要的因素在改进模型中的重要性就有所降低。与出口匝道事故相关的其他因素包括主线日交通量、匝道日交通量、坡度和极端天气率。

本研究的研究结果表明基于广义估计方程的广义线性模型对发展中国家的交通事故分析是合适有效的。它可以解决发展中国家交通事故数据不足的问题,也可以在数据时间相关性不明确的情况下建立合适简便的事故预测模型。此外,很多统计软件已具备相应的广义估计方程的函数。本研究为准确估计各因素对事故的影响以及确定事故高发区提供了有效参考。

[1] Chen H,Liu P,Lu J J,et al.Evaluating the Safety Impacts of the Number and Arrangement of Lanes on Freeway Exit Ramps[J].Accident Analysis and Prevention,2009,41(3):543-551.

[2] Chen H,Zhou H,Zhao J,et al.Safety Performance Evaluation of Left-Side Off-Ramps at Freeway Diverge Areas[J].Accident Analysis and Prevention,2011,41(3):605-612.

[3] Liu P,Chen H,Lu J,et al.How arrangement of lanes on freeway mainlines and ramps affects safety of freeways with closely spaced entrance and exit ramps?[J].ASCE Journal of Transportation Engineering,2010,136(7):614-622.

[4] Washington S,Karlaftis M,Mannering F.Statistical and econometric methods for transportation data analysis[C]∥Floridar:Chapman & Hall/CRC,Boca Raton,FL,2010.

[5] Lord D,Persaud B N.Accident prediction models with and without trend:application of the generalized estimating equations procedure[J].Journal of the Transportation Research Board,2000(1717):102-108.

[6] Lord D,Mannering F.The statistical analysis of crashfrequency data:a review and assessment of methodological alternatives[J].Transportation Research Part A:Policy and Practice,2010,44(5):291-305.

[7] Wang X,Abdel-Aty M.Temporal and spatial analyses of rear-end crashes at signalized intersections[J].Accident Analysis and Prevention,2006,38(6):1137-1150.

[8] Wang X,Abdel-Aty M.Modeling left-turn crash occurrence at signalized intersections by conflicting patterns[J].Accident Analysis and Prevention,2008,40(1):76-88.

[9] 朱 玉,王 静,何 倩.广义估计方程在SPSS统计软件中的实现.[J].中国卫生统计,2011,28(2):199-201.

[10] 张文彤,田晓燕.基于广义估计方程的多重应答资料统计分析[J].中国卫生统计,2004,21(3):139-141.

[11] Liang K Y,Zeger S L.Longitudinal data analysis using generalized linear models[J].Biometrika,1986,3(1):13-22.

[12] Hauer E.Statistical road safety modeling[J].Journal of the Transportation Research Board,2004(1897):81-87.

[13] 熊 惠,孙小端,贺玉龙,等.高速公路运行速度与交通安全关系研究[J].交通信息与安全,2012(6):48-51,56.

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!