时间:2024-08-31
卢志义,蔡静
(天津商业大学理学院,天津300134)
车险费率厘定的索赔概率预测模型及其比较分析
卢志义,蔡静
(天津商业大学理学院,天津300134)
广义线性模型和广义可加模型作为经典线性模型的扩展,近年来在非寿险精算中得到了广泛的应用.本文在对2种模型进行简介的基础上,将驾驶员的性别、车型等8个变量作为费率因子,分别建立了车险索赔发生概率估计的广义线性模型和广义可加模型,并选取瑞典瓦萨(Wasa)保险公司的车险数据对2种模型的估计效果进行比较分析.结果表明,对于离散型费率因子占绝大多数的车险数据,广义可加模型并不具有明显的优势.因此,在车险费率厘定实务中,若离散型费率因子较多,应选择结构相对简单的广义线性模型.
广义线性模型;广义可加模型;索赔概率;Logit联结函数;比较分析
对非寿险产品进行分类费率厘定的传统方法包括单项分析法、最小偏差法以及多元回归模型.单项分析法是最早出现的分类费率模型,属确定性模型,其优点是直观易懂,计算方便,而其主要缺陷是当各个费率因子存在相依关系时,单项分析法得到的结论不可靠.最小偏差法最早是由Bailey R和Simon L于20世纪60年代首先提出的[1],包括边际总和法、最小二乘法、最小χ2法、最大似然法等,其思想是设定一个目标函数,并在目标函数达到最优时得到相对费率的估计.最小偏差法可通过迭代公式求解,简便易行,因而也称为迭代法.最小偏差法虽然克服了单项分析法的不足,但和单项分析法一样,仍然缺少一个完整的统计分析框架对模型进行分析和评价[2].作为统计模型,多元回归模型克服了以上2种方法的缺点,在非寿险分类费率厘定中得到了较多的应用,但其严格的假设条件通常无法满足[2-3].
1972年,Nelder对经典线性回归模型作了进一步推广,建立了统一的理论和计算框架,对回归模型的应用产生了重要影响,这种新的统计模型称作广义线性模型.与古典线性模型相比,广义线性模型将因变量的分布假设从正态分布扩展到包括正态分布在内的指数型分布,其方差随着均值的变化而变化,解释变量通过线性关系对因变量的期望值的某种变换产生影响.由于广义线性模型的模型假设满足了保险数据中特别是非寿险数据中非对称分布、非常值方差、非线性影响的典型特征,因而从其诞生起,便被广泛地用于包括费率厘定、准备金估计等非寿险精算的各个领域.广义线性模型理论的建立,极大地推动了以统计方法为基石的精算学的发展.近年来,广义线性模型在许多国家的保险实践中得到了广泛的应用,并逐渐成为行业标准模型.
McCullagh和Nelder在文献[4]中首次对广义线性模型进行了全面的总结,并将其应用于一组汽车保险损失数据的分析.文献[5-7]介绍了广义线性模型及其在精算中的应用.文献[8]是最早讨论广义线性模型在非寿险费率厘定中应用的文献.文献[9]详细讨论了广义线性模型在费率厘定中的应用问题,该文分别讨论了对索赔概率(Claim frequency)和索赔额度(Claim severity)进行估计时,因变量的分布及联系函数(Link function)的选取等问题.文献[10]是关于广义线性模型在非寿险定价中应用的第1部专著.较早的文献中,都是假设索赔频率与索赔额度相互独立.在此假设下,纯保费就是索赔频率与索赔额度期望的乘积.大部分模型都对索赔频率与索赔额度分别建立模型进行估计,而文献[11-12]则通过建立基于Tweedie类分布的广义线性模型对总赔付额进行估计,但此类模型隐含了索赔频率与索赔额度之间是独立的假设.然而,在实务中,许多情况下索赔频率与索赔额度是不独立的.为了在模型中反映二者之间的相依性,学者提出了2类模型.一类是在建立平均索赔额的估计模型中将索赔次数作为解释变量而反映二者之间的相依关系,此方面的研究见文献[13-16];另一类方法则分别对索赔频率与索赔额度建立模型,然后通过Copulas将二者联结起来,如文献[17-18].文献[19]对以上2种方法的估计进行了对比分析.
广义线性模型是经典线性回归模型的延伸和扩展,它将线性模型中的分布从正态分布推广到指数分布族,从而使模型的适用条件和范围得到了极大的扩展.然而,广义线性模型的一个主要缺陷是,其解释变量是以线性预测量的形式出现的.对于连续型的解释变量,当其对因变量存在非线性效应时,只有对其进行了适当的变换,才能使其非线性效应得到体现.但是,采取何种变换才能反映出这种效应是一个较难解决的问题.可加模型也是经典线性回归模型的扩展,它将线性回归模型中的预测变量的参数形式改为非参数的形式.可加模型在预测变量的效应上是可加的,为分别检验预测变量的效应提供了条件,并且克服了高维度带来的问题.广义可加模型是广义线性模型与可加模型的结合,它集成了二者的优点,因此是处理非线性关系的一种更加灵活而有效的工具.广义可加模型是由Hastie和Tibshirani于1990年提出的,文献[20]对广义可加模型进行了详细的介绍.文献[10]对广义可加模型在非寿险费率厘定中的应用进行了讨论.为了同时在模型中纳入离散型、连续型、分类变量以及空间效应因子,文献[21]采用更加灵活的Bayesian广义可加模型分别对索赔频率和索赔额度进行了预测.
从经典线性模型扩展到广义线性模型,是非寿险费率厘定的一大进步.而广义可加模型又在广义线性模型的基础上,引入了非参数光滑技术,从而使模型的拟合具有更小的偏差和更大的灵活性.但是,对于车险费率的厘定,由于其风险因子大多是分类变量,使得广义可加模型的优势并不能得到充分发挥.因而,一个自然的问题是,在非寿险分类费率厘定中,广义可加模型是否比广义线性模型具有更大的适用性?本文拟在实证分析的基础上对这一问题进行探讨.由于对索赔概率和索赔额度分别建立的广义线性(可加)模型在模型结构上基本相同,因而本文只对索赔概率的广义线性模型和广义可加模型的估计效果进行讨论.本研究的着眼点在于不同模型预测效果的比较分析,因而在研究视角与研究内容上与前述文献有着本质的区别.
本文在对广义线性模型和广义可加模型进行介绍的基础上,采用瑞典瓦萨(Wasa)保险公司的车险索赔数据,建立了索赔发生概率的广义线性模型和广义可加模型,并对2种模型进行了比较分析.研究表明,与广义线性模型相比,虽然对于连续型变量的非线性部分的拟合,广义可加模型具有其自身的优点,但对于离散型费率因子占绝大部分的车险数据,广义可加模型并没有特别明显的优势.因此,根据模型的简约性原则(Principle of parsimony.简约性原则是指在统计建模中,应通过较少的假设和较少的变量达到较大的解释和预测能力[22]).在车险费率厘定实务中,若离散型费率因子较多,应选择结构相对简单的广义线性模型.
1.1 广义线性模型
广义线性模型假设因变量服从指数型分布族,其方差随着均值的变化而变化,解释变量通过线性相加关系对因变量的期望值的某种变换产生影响.广义线性模型包括3个部分.
1)随机成分,即因变量Y或误差项的概率分布.因变量Y的每个观察值yi相互独立且服从指数型分布族中的某一分布.
指数型分布族的概率密度函数可以表示为
其中:yi表示第i个观察值;a(φ),b(θi),c(yi,φ)为已知函数.
2)系统成分,即解释变量的线性组合,表示为η=β1x1+β2x2+…βpxp.系统成分与古典线性模型没有区别.
3)联结函数,联结函数g单调且可导,它建立了随机成分与系统成分之间的非线性关系,即g(μ)=η或E(Y)=μ=g-1(η).
上式表明,在广义线性模型中,对解释变量的线性组合(ηi)通过函数g-1的变换之后即得对因变量的预测值.
常用的联结函数包括恒等函数、对数函数、指数函数、logit函数等[4].显然,在正态分布假设和恒等联结函数下,广义线性模型等价于古典线性回归模型.
需要强调的的,广义线性模型采用的是线性结构来描述解释变量对连结函数作用后的响应变量均值的影响,它虽然也体现了二者之间的非线性关系,但其函数形式有限.当解释变量以更加复杂的非线性影响形式存在时,就会极大地限制广义线性模型的应用,特别是当解释变量为连续型变量时.
1.2 广义可加模型
广义可加模型是广义线性模型的扩展,它保留了广义线性模型的基本框架,只是在模型的参数估计中植入了非参数光滑技术,从而使部分解释变量的影响表示成非参数函数形式.与广义线性模型相类似,广义可加模型也是由随机部分、系统部分和联结函数3部分组成,具体形式如下:
设Y为反应变量,服从指数族分布,X1,X2,…,XP为解释变量,广义可加模型一般可表示为如下形式:
其中:μ=E(Y|X1,…,XP);g(·)是联结函数;sj(·)是变量Xj的非参数光滑函数,并且假设sj(·)的二次导数存在且连续.实务中比较常用的模型是
光滑函数可以采用各种类型的函数,如光滑样条函数、局部回归函数、自然三次样条函数、B-样条函数和多项式函数等.实务中常采用多项式函数反映非线性效应.但多项式函数的缺陷是当其次数较小时,模型不能灵活地反映数据的变化趋势;而次数较大又会导致估计的不稳健,特别是对于xj左右两边的极端点.因而最常用的就是样条函数.广义可加模型不仅体现了解释变量的线性影响,也包含了非线性影响,并且对解释变量的具体函数形式不作具体规定,体现了模型的灵活性.
光滑函数sj(xj)可以根据实际情况采用任何形式,一般可使用光滑样条函数来进行拟合.对于光滑样条函数来说,一般采用惩罚最小二乘法来求解,也可以通过惩罚极大似然法求解.光滑样条的求解结合了粗糙度惩罚的思想,即找到合适的sj(xj)使得惩罚最小二乘函数或者惩罚极大似然函数最小化.其数学形式为:
2.1 数据及变量
本文采用文[10]中的数据进行实证分析,该数据是1994-1998年瑞典瓦萨(Wasa)保险公司的车险数据.数据包含64 548个观测值,在观察期间,至少发生一次索赔的有670个,其中有27个索赔次数为2次,最大索赔额为365 347.数据包括9个变量,每个变量的含义如表1所示.文[8]采用此数据建立广义线性模型对索赔次数和索赔强度进行估计,并得出相对费率.本文分别建立广义线性模型和广义可加模型对索赔概率进行估计,并对2种模型的拟合效果进行对比分析.
表1 变量释义Tab.1 Variable definitions
2.2 索赔概率的预测模型
为估计索赔概率,本文仍采用常用的Logistic回归模型,即假设因变量服从二项分布,使用Logit联结函数.为了得到良好的估计效果,对于连续型费率因子,可采用多项式回归的思想,将费率因子的高次项加入线性预测部分.对于本文的数据,通过绘制散点图,发现索赔频率的logit函数与年龄呈非线性关系,于是,根据散点图,考虑将年龄的二次方项加入线性预测量,建立如下广义线性模型:
采用SAS的GENMOD过程进行分析,输出结果见表2~表4.
表2 拟合优度标准Tab.2 Tests of goodness of fit
由表3和表4可知,7个费率因子变量总体效应是显著的,且各变量的等级因子大部分都通过了参数的显著性检验.
表3 Type 3分析Tab.3 Analysis of Type 3
表4 参数估计及检验Tab.4 Parameter estimation and test
以下采用广义可加模型对索赔概率进行拟合.同广义线性模型相同,在用广义可加模型拟合索赔发生概率时,假设因变量服从二项分布,使用Logit联结函数.考虑将驾驶员的年龄、性别、所在区域、车型、车龄、折扣以及保单持有期作为解释变量,索赔概率作为因变量,建立如下模型:
其中,s(·)表示光滑函数.利用SAS软件进行数据拟合,程序运行结果见表5~表7.
由此可知,所建立的广义可加模型的非参数部分的拟合优度较好,大部分分类变量的等级因子是显著的.
2.32 种模型的比较分析
考虑到2种模型在模型评价指标上的差异性和非一致性,本文主要采用模型的偏差(Deviance)对所建立的2种模型进行评价和比较.本例中,广义可加模型的偏差为6 659.04,而广义线性模型的偏差为6 699.54,由此可知广义可加模型的拟合结果稍好.这说明,较广义线性模型而言,广义可加模型的非参数特性增加了模型的灵活性和适应性,具有较好的拟合效果和更大的适用范围.但是,从数据可以看出,两模型的偏差并无明显的差别,因而广义可加模型比广义线性模型并未体现出明显的优势.事实上,广义可加模型也有其局限性,在样本量不变的情况下,当模型中的解释变量较多时,广义可加模型会因为“维度的灾难(curse of dimensionality)”而使方差急剧增加,从而导致拟合效果的下降.另外,虽然对连续型解释变量的非线性部分来说,广义可加模型具有更好的拟合优度和更大的灵活性.但是,车险数据大都比较复杂,既有只取少数几个值的分类变量,也有连续型的变量,并且一般情况下分类变量较多.对分类变量占
绝大多数的车险数据进行拟合,采用对于连续变量非线性拟合有极强能力的广义可加模型并不是最佳的选择.因而,在实务中,应将2种模型结合使用,互相映衬.如可以采用两阶段法进行建模,即在第1阶段采用广义可加模型对各费率因子进行探索性研究,找出对具有非线性影响的费率因子及其影响形式;第2阶段,将不同类型(线性影响和非线性影响)的费率因子以不同的形式纳入模型,建立广义可加模型,并将其与广义线性模型的拟合效果进行对比,在兼顾模型复杂程度与拟合效果的基础上选择较好的模型.
表5 迭代情况Tab.5 The information of iterations
表6 参数估计Tab.6 Parameter estimation
表7 偏差分析Tab.7 Deviance analyses
[1]孟生旺,刘乐平.非寿险精算学[M].第2版.北京:中国人民大学出版社,2011.
[2]孟生旺.广义线性模型在汽车保险定价中的应用[J].数理统计与管理,2007,26(1):24-28.
[3]孟生旺.非寿险定价[M].北京:中国财政经济出版社,2011.
[4]McCullagh P,Nelder J.Generalized linear models[M].London:Chapman and Hall,1983.
[5]De Jong P,Heller G.Generalized linear models for insurance data[M].New York:Cambridge University Press,2008.
[6]Haberman S,Renshaw A E.Generalized linear models and actuarial science[J].The Statistician,1996,45:407-436.
[7]卢志义,刘乐平.广义线性模型在非寿险精算中的应用及其研究进展[J].统计与信息论坛,2007,22(4):26-31.
[8]Brockman M J,Wright T S.Statistical motor rating:making effective use of your data[J].Journal of the Institute of Actuaries,1992,119:457-543.
[9]Renshaw A E.Modeling the claims process in the presence of covariates[J].ASTIN Bulletin,1994,24:265-285.
[10]Johansson B,Ohlsson E.Non-Life insurance pricing with Generalized Linear Models[M].Springer,2010.
[11]JorgensenB,deSouzaMCP.FittingTweedie’scompoundPoissonmodeltoinsuranceclaimsdata[J].ScandinavianActuarialJournal,1994,1:69-93.
[12]Quijano-XacurOA,GarridoJ.Generalisedlinearmodelsforaggregateclaims:ToTweedieornot[J].EuropeanActuarialJournal,2015,5(1):181-202.
[13]Frees E W,Wang P.Copula credibility for aggregate loss models[J].Insurance Mathematics and Economics,2006,38(2):360-373.
[14]Gschlubl S,Czado C.Spatial modelling of claim frequency and claim size in non-life insurance[J].Scandinavian Actuarial Journal,2007,3:202-225.
[15]Frees E W,Gao J,Rosenberg M A.Predicting the frequency and amount of health care expenditures[J].North American Actuarial Journal,2002,15(3):377-392.
[16]Garrido J,Genest C,Schulz J.Generalized linear models for dependent frequency and severity of insurance claims[J].Insurance:Mathematics and Economics,2016,70:205-215.
[17]Czado C,Kastenmeier R,Brechmann E C,Min A.A mixed copula model for insurance claims and claim sizes[J].Scandinavian Actuarial Journal,2012,4:278-305.
[18]Kramer N,Brechmann E C,Silvestrini D,et al.Total loss estimation using copula-based regression models[J].Insurance:Mathematics and Economics,2013,53(3):829-839.
[19]Shi P,Feng X,Ivantsova A.Dependent frequency-severity modeling of insurance claims[J].Insurance:Mathematics and Economics,2015,64:417-428.
[20]Wood S.Generalized Additive Models:an introduction with R[M].Chapman&Hall,2006.
[21]Denuit M,Lang S.Non-life rate-making with Bayesian GAMs[J].Insurance:Mathematics and Economics,2004,35(3):627-647.
[22]Spirer H F,Spirer L.Misused Statistics[M].2nd edition.CRC Press,1998.
[责任编辑 杨屹]
A comparative analysis of two predictive models of the probability of claim in automobile insurance ratemaking
LU Zhiyi,CAI Jing
(School of Science,Tianjin University of Commerce,Tianjin 300134,China)
As extensions of classical linear model,Generalized linear models and Generalized additive models recently have been widely used in non-life actuarial science.In this paper,by using eight variables including gender and vehicle type as the rating factors,the probability of claim is modeled applying Generalized linear models and Generalized additive models respectively.Furthermore,the estimation effects between the two models are compared by applying the data of Wasa insurance company of Swedish.It is shown that Generalized additive models does not has clear advantage in fitting the data of automobile insurance because of the existence of more discrete covariables.Therefore,Generalized linear models should be adopt in insurance practice when there are more discrete risk factors.
Generalized linear models;Generalized additive models;the probability of claim;Logit link function;comparative analysis
1007-2373(2017)03-0056-07
10.14081/j.cnki.hgdxb.2017.03.010
F224.7;O212
A
2016-12-14
国家自然科学基金(71371138);全国统计科学研究计划项目(2012LY107)
卢志义(1973-),男,副教授,博士.
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!