当前位置:首页 期刊杂志

客户流失预测模型构建——基于生存分析视角

时间:2024-08-31

叶敏 季国民 张希君

(福州大学至诚学院 经济管理系,福建 福州 350004)

客户关系管理尽管不是一个全新的课题,但是由于客户在企业发展中的重要地位,因此对其研究一直没有中断过。姚博(2017)研究表明,公司高端20%的顾客创造出公司80%以上的利润,在企业资源有限的情况下,有效地预测客户流失,保持优质客户成为客户关系管理的重心。

目前客户流失管理方面的研究主要体现以下几个方面。

第一,客户流失动机的识别。主要研究是客户在什么情况下,客户会流失。通过分析客户的行为动机及购买频率等因素来预判客户流失的动向。

第二,分析客户流失的动因。主要研究是什么原因促使客户流失,是企业自身原因,还是客户消费者偏好发生改变,等等。

第三,防止客户流失的应对措施。主要探讨在企业资源有限的情况下,分析客户流失的动因,有针对性地进行挽留客户,进而提高客户的留存率。

通过对前人的研究整理发现,更多的研究体现在定性而非定量研究,有些虽是定量研究但在实务操作中不具有可操作性,更多的是停留在理论阶段层面。因为企业在评估客户对企业的价值时,不仅要考虑成本与效益的问题,还要考虑可操作性与外部环境等因素。因此,如何构建一个可操作的客户流失预测模型,对企业价值的提升具有十分重要意思。

一、客户流失的相关理论

(一)客户流失的界定

客户流失就是原客户不再购买原企业的产品或服务。Yeh I C(2009)将客户流失定义为“转换意愿”,客户流失就是指客户不再重复购买或终止原先使用的产品或服务。但是定义较为笼统,不够准确。例如客户不再重复购买没有时间限定,是一个月还是一年,另外客户不重复购买的行为与产品的特性也有关系。大件商品重复购买的周期比较长,而日常用品其重复购买周期就比较短。因此有些学者从定量的角度探讨客户流失的定义。张珠香(2018)认为当一个客户连续3个月没有在该企业进行任何消费,就是客户流失。林芳(2016)将流失的客户界定为已经流失指彻底停止消费企业所提供的产品或服务,同时作者还对客户流失进行简单分类:包括已经流失的客户和即将流失的客户[1~4]。即将流失的客户就是较之前对企业所提供的产品或服务消费变少,而已经流失的客户是已经开始向企业的竞争对手寻求替代品,但目前还没有完全断绝与公司的交易。也有学者王莹(2015)将客户流失按流失意愿分为自发流失、强制流失和预期流失。笔者研究的主要是自发流失。因为强制流失的客户实质上未能给企业带来效益,这样的客户对企业没有价值;而预期流失表明客户从根本上不再需要企业产品,是正常的退出机制,不会减少企业价值。

(二)客户流失预测方法

客户流失预测方法随着科学技术的不断提升,大数据应用的普及,其预测也越来越精确。目前对客户流失预测采用的主要方法是利用大数据,运用决策树、神经网络、遗传算法、生存分析、回归等,同时结合数据分析等软件操作,通过数据库的统计,分析客户购买时间,购买频率,购买数量,等等,预测客户流失动向。

常见的客户流失模型有二元结构模型和预测客户剩余生存期。二元结构模型就是将客户的流失分为两个维度:一个是客户流失的维度,一个是客户保留的维度。然后运用逻辑回归等相关方法建立模型,预测客户流失规律、时间及分布。客户剩余生命期就是利用企业客户数据库,分析客户在企业中保留期限,其目标就是建立模型评估客户流失的一种方法。

比较有代表性的研究成果有Kisioglu P(2011)运用贝叶斯方法对电信公司客户流失行为进行预测。研究结论表明客户平均通话时间等因素是判断客户流失倾向的较为重要因素,为企业尤其是电信企业流失预测模型的改进提供有效指导。郑为益(2011)运用生存分析技术风险模型建立客户流失预测模型,分析客户流失的主要因素,为通讯运营商进行后续有针对性的客户营销方案提供重要理论决策依据。

(三)客户流失动因分析

企业的客户千差万别,企业处理客户关系也不尽相同。客户流失动因较为复杂,包括主观原因、客观原因、内部原因、外部原因,等等。目前研究没有得出一个统一的结论。余路(2016)从客户满意和客户价值的角度,分析客户流失的主要原因。研究表明当客户的价值受损或满意度降低,客户就会流失。也有学者从企业的角度研究客户流失,认为客户流失主要是企业未能有效重视客户管理,造成客户的购买意愿下降进而流失,并且这种单一客户的流失会导致其他客户购买意愿降低[5~7]。较为常见的情形就是企业未能妥善处理客户投诉,导致客户流失。

(四)客户挽留的理论研究

客户挽留实质上是企业的一种补救措施。如果企业在前期客户管理中能够有效满足客户需求,增加客户满意度,提高产品的附加值,不但不会造成客户流失反而会吸引更多的客户。因此客户挽留一定要做到有针对性的挽留,不能脱离企业与客户而无目的的挽留。较为有效的客户挽留要分析客户流失动因,分析动因产生的机理,同时结合企业成本效益前提下,评估挽留客户给企业带来价值与成本关系情形下,进而决定采用何种挽留措施。

目前关于客户挽留的研究主要是从定性和定量两个角度。定性研究通过研究客户流失动因出发,提出客户挽留建议。其主要优点在于简单可以行,不需要大量数据支撑,但是其缺点就是无法量化,不能准确的衡量企业挽留客户的成本效益比。相反定量研究就是利用大数据,采用一些数理统计模型进行分析,能够较好的测算出挽留客户的成本效益。但是其不足也非常明显就是需要大量数据支持,计算模型复杂,参数较多,结果受参数质量影响较大。孙树垒(2011)通过定量研究的方法建立客户挽留模型,提出客户保持对客户挽留的重要意义。[8]

二、生存分析理论

(一)生存分析的界定

生存时间原本是一个医学名词,是指某种疾病患者从开始患病到死亡所经历的时间跨度。而本文将生存时间界定为客户与企业初次购买到终止购买关系时间过程。

生存率就是客户留下的可能性,指客户经历 若干个时间个单位时段后仍与企业保持消费关系的可能性。流失率与生存率的关系是,流失率=1-生存率。

因此生存分析就是用来研究客户保留状态的规律。如客户挽留的时间分布特点,某一时间段内客户的挽留比率。其优点在于解决传统统计模型对数据要求过高的缺陷。

(二)生存分析模型

生存分析模型中最为重要的就是对生存函数的估计,而生存函数常用的估计方法,有参数法、半参数法等方法。参数法就是先对某种事件与时间的关系作出特定假定,并通过研究时间与对象之间的特定联系建立客户的生存函数S(t)和时间t的关系。在使用参数法对生存函数进行模拟估计是通常采用指数分布模型。指数分布是一种常用的概率统计分布,用来描述独立随机事件发生的时间间隔,反应时间与事件之间的相互变量关系。将变量关系用其概率密度函数进行表述:

其生存函数为:

但是,实际中,如果某些参数无法获知的情形下,通常使用半参数法,就是模型中部分变量予以量化,部分变量定性分析。非参数法就是对客户保持与挽留的时间分布不作任何假设,直接对样本数据进行统计分析。半参数模型较参数模型的优点在于该模型不考虑研究对象的时间与事件之间的变量关系,允许观测对象在数据有缺失或截尾现象,并且可以全面观测变量与时间的长效关系。因此半参数模型对客户流失的预测,从客户生存角度无疑是一个比较好的方法。较为经典的半参数模型就是Kotler(1999)提出的Cox 比例风险模型。

该模型的数理表达式为:

式中,Xj是随着时间推移,会对客户的生存结果造成影响的变量因素。h0(t)是指自变量因素Xj(j=1,2,…,P)都处于某种特定状态下的特定系数,h0(t)数字的确定与该函数特征状态有关。βj(j=1,2,…,P)成为Cox回归系数,是模型中的待定参数。

任何两个个体风险函数之比,即相对危险度可写为:

=exp[(β1(xi1-xj1)+β2(xi2-xj2)+...

+βp(xip-xjp)]

i≠j,i,j=1,2,...n

RR是相对危险度的一个结果,该比值在一定特定的状态下是一个特定数字,与时间无关,成为比例风险假定,简称PH假定。因此βj的参考意义是:当自变量Xj每改变一个观测单位时,所引起的相对风险度的自然对数值。

三、客户流失预测模型的构建

笔者在前人的研究基础上构建客户流失预测模型,总体思路是从企业端提取客户交易数据,采用一定的数理统计方法,据不同群体的特征对客户进行分类,然后基于生存分析的视角建立客户流失预测模式。

客户分类中主要采用聚类分析方法。聚类分析是对分类对象按是否具有同一属性或类似属性的客户分为一类,在数理上主要通过客户的数量关系来表述,即不同分类主体之间的距离来度量分类对象是否有差异,这样有利于后续模型的构建及数据处理。在聚类分析中,笔者对不同客户群体运用下列数量指标进行分类:设xik为第i个对象的第k个指标,每个对象测量了p个变量,则对象xi和xj之间的距离(Dij)的定义为:

式中q为大于0的正数。

同时也是基于生存分析视角探讨客户流失预测模型,因此对客户流失率也给予限定。客户流失率是指在一段时间内,客户流失数量与企业全部客户的比值。而生存率是指客户在一段时候后仍与企业保持购买关系或意愿的可能性,常用 p(x>t)表示。客户流失率、客户保持率的关系为:客户流失率+客户保持率=1,表明客户保持率越大,客户流失率也越小。

基于上述分析构建了基础生存分析视角的客户流失预测模型,模型如下:设观测从0时刻开始,记录样本总体的n个观测对象的生存数据t1,t2,...tn为寿终数据时,记δi=1:若ti为右删失数据时,记δi=0。t(1)≤t(2)≤...t(n)是t1,t2,...tn的次序统计量,对应得到一系列δ(i)(1≤i≤n),用下列函数表示:

即设n是包含所有删失数据和非删失数据的观测对象总数,将n个对象生存时间观察值从小到大排序,使得X(1)≤X(2)...≤X(n),则有生存函数:

式中i取遍所有满足X(i)≤t的正整数,这里X(i)是非删失观察。

四、客户流失预测模型的实证检验

研究的数据来源于对福建省某大型商场2014~2017年的交易数据,根据其内部数据源,进行有效的数据筛选。为了保护调研对象的商业信息,对部分数据进行适当修正。样本总数定位在2131名客户,该样本均为有效样本,已考虑相关不合理数据。统计变量中购买金额用M表示,以元为单位;客户两次购买时间间隔用T表示,以天数为单位;客户两次购买时间间隔越长表示客户越容易流失,因此,笔者将客户流失界定为两次购买时间超过半年以上的;购买频率用N表示,单位用次数表示。

在对样本分析过程使用SPSS进行相关数据分析,样本的描述性统计见表1、表2、表3。

表1 样本描述统计

表2 方差分析表

表3 特征客户群

从表2中我们可以看出p值(sig.)很小,因此可以初步购买金额、购买时间间隔和购买频率三个变量是影响客户分类的主要因素。上述通过TNM分类,将调研的客户群体分为如上两大类。

A类客户群体:该类客户近期有购买,其购买的次数与其消费金额较大,该类客户购买时间间隔低于人均平均间隔时间132天,购买次数多于人均购买次数12次,购买金额大于人均购买金额12478.80元,人数410人,占比19.24%,购买总金额21785474元,占比79.69%。因此该类客户为企业的有效客户,可以持续为企业带来价值,企业应当重视对该类客户的维持与提升。

B类客户群体:该类客户表现为近期几乎没有购买行为,或者购买次数较低,远远低于平均数。从表3中可以看出B类客户购买时间间隔高于平均客户购买的时间间隔132天,购买次数少于人均12次的购买次数,购买所消费的金额低于人均购买金额12478.80元,人数1721人,占比80.76%,购买金额5554426元,占比20.31%。因此该类客户属于企业流失的客户,企业可以通过后续的客户管理进行持续观察。

尽管笔者尝试建立一个定量预测客户流失模式,但是由于模式中涉及参数角度,尤其是与时间相关的变量,其输入值层级的高低,最终会影响模型的准确性,因此在参数的限定方面,研究做得还不够,模型的精准度需要提高。同时,在对客户分类与识别过程中,由于使用的数理方法不同,造成分类结构有一定的偏差,对后面模型结果会造成一定影响。因此,在后续的研究中尽可能以观察输入值为依据,提高参数的可控性,进而提高预测模型的精准度。

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!