时间:2024-07-28
莫 赞,樊 鹏,李燕飞
(广东工业大学 管理学院,广东 广州510090)
互动式语音应答业务IVR(Interactive Voice Response)是企业客户关系管理中一种有效的模式,它可以解决用户的绝大部分问题[1]。本文针对电信行业客户细分要求,将数据挖掘中的聚类分析、决策树方法应用于分析过程[2]。
随着客户关系管理实践和理论的发展,在客户细分方法研究方面,研究者正寻找将客户聚类为独特的客户群的方法[3-4]。在国际学术界,学者们主要利用数据挖掘技术建立基于细分市场水平的客户分割模型。在国内,武汉大学郭蕴华等人提出了基于模糊聚类分析的客户分类算法。
数据挖掘用来根据客户的预测行为定义客户细分群[5]。例如,将决策树的叶节点视为一个独立的客户细分群。
研究数据来自于中国移动深圳分公司呼叫中心(10086)中的操作数据,操作数据的原数据项以及含义如表1所示。
本文选取动感地带2月份的数据进行分析研究,数据量为20多万条。进行数据挖掘[6]之前,对原始数据进行预处理和数据整理,具体步骤如下。
表1 原始数据列表项
(1)合并具有相同变量的数据集。
(2)对呼入时间进行升序排序,当一个客户连续拨打10086时,可以更好地显示数据。
(3)去除重复数据。根据呼入时间排序,在同一相邻的时间段同时出现重复的呼叫号码视为重复数据。
(4)去除异常数据。去除异常数据的条件为:ARPU值>1 000或入网时长>80或ARPU值<0或入网时长<0或地区="沉默"。
(5)平衡数据集。
(6)离散化处理。采取“分箱”的方法划分区间,根据其取值情况分别对应到相应的区间,结果如图1所示。
图1 ARPU值离散化处理结果
入网时长为整型属性。对于整型属性采取“分箱”的方法进行区间划分,根据取值情况对应到相应的区间,结果如图2所示。
图2 入网时长离散化处理结果
以深圳移动动感地带的客户作为分析对象,对IVR客户进行聚类分析[7]。
(1)地区分布与IVR客户的关系分析
经分析得到地区分布结果,95%以上拨打IVR的客户来自宝安、龙岗、福田、南山和罗湖5个地区。宝安地区拨打IVR的客户最多,占到总数据量的45.79%;盐田地区的客户拨打数最少,仅占总数据量的1.31%。
(2)ARPU值与IVR客户的关系分析
经分析得到ARPU值分布,99.9%的客户ARPU值小于 600,而其余 0.1%的客户 ARPU值在600~1 608.690之间。因此可以看出,ARPU值越大的客户拨打IVR的数量越少,ARPU值小于200的客户拨打数量最多。拨打IVR的客户主要是ARPU值小于350的客户,ARPU值为100~150之间的客户拨打IVR的频率最高。
移动IVR客户细分分析过程[5]如下:
(1)将客户划分为4类:
A类客户:ARPU值及入网时长都很高
B类客户:ARPU值高,入网时长较低
C类客户:ARPU值较低,入网时长高
D类客户:ARPU值和入网时长都较低
(2)选取“arpu”和“in_months”作为模型的输入。
(3)数据准备:
①将所有数据合并到一个记录表;
②根据呼入时间对数据进行排序;
③根据呼入号码去除重复数据;
④去除异常变量;
⑤选择IVR客户。
ARPU值、入网时长的数据大小差别非常大,具体统计值如图3所示。
图3 ARPU值和入网时长的统计值
(4)使用 Clementine 进行建模,选取“arpu”、“in_months”作为模型的输入。此处设定K=4。
(5)根据聚类结果,分为 4类是较为理想的,结果如图4所示。
图4 聚类结果
相关统计量结果如表2所示。
表2 聚类的各指标统计值
从聚类结果得到以下客户划分:
A 类:cluster-2,7 487条记录,占 13%
B 类:cluster-3,5 190条记录,占 9%
C 类:cluster-4,15 370条记录,占 26%
D 类:cluster-1,30 797条记录,占 52%
(1)进行客户行为预测的商业理解。用户在拨打热线电话时,只会产生两种情况:一种是转入“人工接听”,另一种是进入“自动语音播放”。
(2)选 取“area”、“arpu”、“in_months”,作 为 模 型 的 输入,将 “是否转人工”作为输出变量。
(3)评估客户行为预测的模型。通过采用analysis节点对C5决策模型进行评估,得到的评估结果如图5所示,从图中的可信矩阵可以看出模型的正确率达到60.42%。
结果分析如下:
(1)更可能拨打 IVR的客户包括:ARPU值在 50~150,入网时长为 5.5~8.5,居住在盐田、罗湖地区的客户;入网时长为 0~2.5和 59.5~62.5,居住在盐田、龙岗地区的客户;ARPU 值在 50~150,入网时长为 8.5~11.5,居住在南山、宝安、盐田、罗湖的客户。
图5 C5.0决策树模型评估图
(2)更可能拨打人工座席的客户包括:ARPU值在50~150,入网时长为 5.5~8.5,居住在南山、宝安地区的客户;入网时长为 11.5~20.5,居住在盐田、龙岗地区的客户;入网时长为 5.5~11.5,居住在盐田、龙岗地区的客户。
该领域的研究仍有许多待改进之处,特别是在模型分析上,利用数据挖掘的方法较少,本文针对这些不足,通过数据挖掘技术,达到提高客户关系管理可用性、实时性、智能性等目标。本文在国外已有研究的基础上,结合电信企业的实际需要,提出了电信客户细分数据挖掘模型,并根据客户细分结果为企业提供决策支持。在业务应用上,建立了一个聚类模型和一个定量化的决策树数据挖掘模型,提出了相应的改进措施,可为相关的决策者提供一定的参考。
[1]王扶东,马玉芳.基于数据挖掘的客户细分方法的研究[J].计算机工程与应用,2011,47(4):215-218.
[2]易珺,路璐,曹东.改进的 k-means算法在客户细分中的应用研究[J].微型机与应用,2005,24(12):52-53.
[3]潘玲玲,张育平,徐涛.核 DBSCAN算法在民航客户细分中的应用[J].计算机工程,2012,38(10):71-73.
[4]徐翔斌,王佳强,涂欢,等.基于改进RFM模型的电子商务客户细分[J].计算机应用,2012,32(5):1440-1442.
[5]张焕国,吕莎,李玮.C均值算法的电信客户细分研究[J].计算机仿真,2011,28(6):185-188.
[6]廖宝魁,孙隽枫.基于MapReduce的增量数据挖掘研究[J].微型机与应用,2014,33(1):67-70.
[7]徐新国,朱廷劭,康卫,等.基于数据挖掘的工业控制系统防危机制研究[J].电子技术应用,2012,38(5):87-90.
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!