当前位置:首页 期刊杂志

基于Alpha稳定分布的二元响应变量回归模型

时间:2024-08-31

许 哲, 钱夕元

(华东理工大学理学院,上海 200237)

基于Alpha稳定分布的二元响应变量回归模型

许 哲, 钱夕元

(华东理工大学理学院,上海 200237)

Logit模型是常用的针对二元响应变量的回归模型,当0-1响应变量不平衡时,Logit模型将会带来连接函数设定错误。为了更灵活地捕捉带偏和厚尾特征,提出了以Alpha稳定分布作为连接函数的二元响应变量回归模型,称之为稳定分布模型。借助期望传播-近似贝叶斯计算(EP-ABC)方法,克服了Alpha稳定分布由于没有概率密度函数解析表达式所带来的困难,同时也解决了高维运算所导致的低接收率的问题。结果表明该模型对平衡或不平衡二元响应变量数据拟合和预测的效果均明显优于Logit、Probit、Cloglog和GEV模型。

Alpha稳定分布模型; EP-ABC方法; 广义线性回归模型; 不平衡数据

在针对二元响应变量建立回归模型时,由于Logit模型潜在变量的概率响应曲线是对称的,一般性假设响应变量中的各类样本数目基本均衡,而当0-1响应变量样本数差异明显时,继续使用Logit模型,将会产生连接函数设定错误(Link misspecification),为参数的估计带来较大的偏差和均方误差[1]。同时,Cloglog模型只有固定的偏度,GEV模型的形状参数同时控制偏度和尾部厚度,偏度特征与尾部特征相互制约,使得模型拟合的灵活性并没有完全放松[2]。

因此,针对不平衡的二元响应变量,应当选择更加灵活的连接函数来捕捉数据的偏度特征,用以达到更好的拟合效果。鉴于Alpha稳定分布可以很好地刻画数据偏度和尾部特征,本文采用Alpha稳定分布作为连接函数构建了二元响应变量回归模型,称为稳定分布模型。

1 稳定分布模型

假定二元响应变量yi是取值为0、1的随机变量,yi=1表示事件在第i个样本下发生,而yi=0表示事件在第i个样本下不发生。因此,判断事件在第i个样本下发生概率的表达式为

(1)

其中:xi为k维自变量向量;βc为k维回归系数;F为累积分布函数,而F-1称为连接函数。Logit模型中F-1(pi)=lg(pi/(1-pi));在Probit模型中F-1(pi)=Φ-1(pi),Φ表示标准正态分布的累积分布函数;Cloglog模型中F-1(pi)=lg(-lg(1-pi));GEV模型中F-1(pi)=G-1(pi),G表示标准GEV分布的累积分布函数。

除了高斯分布(α=2)、柯西分布(α=1,β=0)和Lévy分布(α=1/2,β=1)等少数几种情况外,Alpha稳定分布的概率密度函数和累积分布函数没有解析表达式,通常可以用如下的特征函数来表示:

(2)

依据特征函数的性质,稳定分布拥有连续且单调的概率密度函数和累积分布函数[3],因此,根据式(1),稳定分布模型可以表示为

(3)

2 EP-ABC方法

EP-ABC方法是综合了ABC方法和EP方法而形成的一种贝叶斯推断方法[4]。

ABC方法的提出是为了解决在似然函数难以计算或表达情况下贝叶斯估计的困难[5]。它主要通过对模型的模拟产生人工数据集,以选定的概要统计量s(·)(Summary statistics)作为度量,比较人工数据集与实际观测数据在这个度量上的距离,如果它们足够接近(小于设定的误差ε),则认为用于模拟人工数据集的参数来自与真实后验分布相同的分布,这样后验分布就可以直接通过数值模拟进行估计,从而省去了似然函数的计算。ABC方法成功的关键取决于概要统计量s(·)和误差ε的选取,这对稳定分布模型参数估计构成了一定的挑战;另外,标准ABC方法计算还存在效率不高的缺点。

对于稳定分布模型,似然函数没有解析的表达式,这会使混合分布也同样不能被解析表达,最小化KL散度的运算是十分困难的。EP-ABC方法就是利用ABC方法替代最小化KL散度的过程来估计混合分布的矩。令概要统计量取s(yi)=yi,则在EP-ABC方法下,参数为θ=(βc,α,β)的稳定分布模型联合后验分布表示为

(4)

3 数值模拟实验

3.1 模拟数据集

在二元响应变量回归模型中,线性回归部分模拟产生1个截距项X1和4个解释变量(X2,X3,X4,X5),对应的回归系数设为βc=(β1,β2,β3,β4,β5),其中,设定X2为服从标准正态分布的连续变量,X3为服从伯努利分布的二元0-1虚拟变量,X4和X5为三分类的类别变量,且令样本容量为n=200。分别模拟产生两组服从n维伯努利分布的二元响应变量:一组为基于Cloglog模型产生的不平衡数据集,回归系数设为βc=(0.5,1,1,0.5,-2),称为模拟数据集1;另一组为基于Probit模型产生的平衡数据集,回归系数设为βc=(0.5,2,-1,1.5,-2),称为模拟数据集2。

为了验证稳定分布模型对不平衡的模拟数据1和平衡的模拟数据集2都能进行很好的估计,从而进一步展示Alpha稳定分布连接函数的灵活性,将稳定分布模型的估计结果与Logit、Probit、Cloglog和GEV模型进行比较。这里所有的模型均采用EP-ABC算法估计,并且每个待估参数都选取标准正态分布作为先验分布。对于稳定分布模型,待估参数为θ=(βc,α,β),即先验分布βc~N(05,diag(1,1,1,1,1)),Φ-1(α/2)~N(0,1),Φ-1(β+1/2)~N(0,1)。

3.2 实验结果与分析

图1 回归系数参数βc的估计误差分布箱线图

稳定分布模型在拟合Cloglog模型模拟产生的不平衡数据集1时,模型连接函数中的特征参数α和对称参数β的估计值和95%置信区间(HPDI)分别为α=1.635(1.435,1.834),β=-0.129(-0.559,0.301),由于Cloglog函数和Alpha稳定分布并不来自相同分布族,在Alpha稳定分布中与Cloglog函数同等的分布的真实参数未知,因此这里只通过构建Cloglog函数分位数和Alpha稳定分布分位数的Q-Q图来评价稳定分布模型的参数估计效果。从图2(a)中可见,数据点在[-2,4]的区间内均落在一条直线上,可以认为以估计值α=1.635和β=-0.129为形状参数的稳定分布模型对Cloglog连接函数已经提供了较好的拟合效果。

稳定分布模型在拟合Probit模型模拟产生的平衡数据集2时,模型连接函数中的特征参数α和对称参数β的估计值和95%置信区间(HPDI)分别为α=1.879(1.838,1.920),β=-0.057(-0.304,0.190)。当n=200时,真实值β=0已经包含在95%的HPDI置信区间中,而对于α而言,真实值α=2是α取值范围(0,2]的边界,因此α的估计取不到真实值,α=2也不可能包含在95%的HPDI置信区间中,尽管如此,估计值α=1.879已经相当接近真实值α=2,可以认为α的估计是比较精确的。与此同时,还可以通过构建高斯分布分位数和Alpha稳定分布分位数的Q-Q图来评价稳定分布模型对高斯分布连接函数的拟合效果,从图2(b)中可见,数据点几乎都落在一条直线上,说明以估计值α=1.879和β=-0.057为形状参数的稳定分布模型对高斯分布的连接函数拟合效果较好,α和β的估计是精确的。

图2 稳定分布模型对Cloglog模型(a)和Probit模型(b)近似效果的Q-Q图

综上所述,稳定分布模型的连接函数可以灵活捕捉和描述数据峰度、尾部及偏度的特征,对平衡或不平衡的数据集都能做到较为精确的估计。

3.3 模型比较与预测

参数估计以外,本文还将稳定分布模型的估计能力与Logit、Probit、Cloglog和GEV模型进行对比。依据表1的模型比较结果,在DIC准则方面,稳定分布模型的DIC值都明显小于Probit,Cloglog和GEV模型,说明稳定分布模型的复杂度优于其他3个模型。

表1 模型比较结果

为了比较不同模型对于不平衡数据集的预测能力,计算各模型5折交叉验证的均方根误差(RMSE)并绘制其接收者操作特性曲线(ROC),由表1可知稳定分布模型的均方根误差最小,图3显示稳定分布模型ROC曲线下的面积(AUC值)最大,说明稳定分布模型具有最佳的预测能力。

由此可见,稳定分布模型的拟合和预测效果都优于其他3个模型,是二元响应变量回归模型在GEV模型基础上的合理改进。

图3 模拟数据集1中各模型ROC曲线和AUC值

4 结 论

本文对广义线性模型进行推广,给出了稳定分布模型,针对不平衡二元响应变量回归分析时,拥有更多偏度和拖尾厚度上的灵活性。针对稳定分布概率密度和累积分布函数没有解析表达式的特点,还给出了EP-ABC的估计方法。最后通过数值模拟实验,验证了稳定分布模型对二分类不平衡数据的估计效果与预测能力优于Logit,Probit,Cloglog以及GEV模型,该模型可以广泛地应用于经济、金融、信号处理等领域。

[1]CZADO C,SANTNER T J.The effect of link misspecification on binary regression inference[J].Journal of Statistical Planning and Inference,1992,33(2):213-231.

[2]WANG X,DEY D K.Generalized extreme value regression for binary response data:An application to B2B electronic payments system adoption[J].The Annals of Applied Statistics,2010,4(4):2000-2023.

[3]NOPAN J P.Stable Distribution:Models for Heavy Tailed Data[M].Washington D C:Birkhauser,2010.

[4]BARTHELME S,CHOPIN N.Expectation-propagation for likelihood-free inference[J].Journal of the American Statistical Association,2014,109(505):315-333.

[5]TURNER B M,ZANDT T V.A tutorial on approximate Bayesian computation[J].Journal of Mathematical Psychology,2012,56(2):69-85.

[6]SKAR C.The expectation propagation algorithm for use in approximate Bayesian analysis of latent gaussian models[D].Norway:Institutt for Matematiske Fag,2010.

Alpha-Stable Distribution Based Regression for Binary Response Data

XU Zhe, QIAN Xi-yuan

(School of Science,East China University of Science and Technology,Shanghai 200237,China)

Logit model is the most popular binary regression models for modelling binary response data.When dealing with unbalanced data,Logit model will cause link misspecification.A more flexible model of alpha-stable model,is introduced to fit unbalanced data by setting alpha-stable distribution as the link function.For model estimation,since alpha-stable distribution admits no closed-form expression for the density,we employ expectation propagation with approximate Bayesian computation (EP-ABC) algorithm.It overcomes the difficulties that high dimensionality results in low acceptance rate through data partitioning.According to the simulation results,alpha-stable model performs better than Logit,Probit,Cloglog or GEV model in fitting both balanced and unbalanced data.

Alpha-stable model; EP-ABC algorithm; generalized regression model; unbalanced data

1006-3080(2017)01-0129-04

10.14135/j.cnki.1006-3080.2017.01.020

2016-04-19

国家高技术发展研究“863”计划项目(2015AA20107);上海市经信委“软件和集成电路产业发展专项资金”(140304)

许 哲(1991-),女,江苏南京人,硕士生,研究方向为统计计算。E-mail:belle_910803@163.com

钱夕元,E-mail:xyqian@ecust.edu.cn

O212.1

A

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!