基于客户投诉信息的创新预测方法研究

时间：2024-05-04

刘世伟+吕景楠+莫兰

【摘要】为了降低客户升级投诉数量，通过对客户投诉现状进行分析，发现投诉处理环节的短板和不足，并利用大数据工具，使用海量的客户投诉数据建立预测模型，对有升级倾向的投诉客户进行预判，在投诉升级之前预先解决客户的问题，从而提升客户满意度。

【关键词】大数据客户投诉决策树预测模型

doi：10.3969/j.issn.1006-1010.2017.08.016 中图分类号：TP181 文献标志码：A 文章编号：1006-1010（2017）08-0079-06

引用格式：刘世伟，吕景楠，莫兰. 基于客户投诉信息的创新预测方法研究[J]. 移动通信， 2017，41（8）： 79-84.

Research on an Novel Prediction Method Based on Customer Complaint Information

LIU Shiwei， LV Jingnan， MO Lan

[Abstract] In order to reduce the number of customers complaints against upgrade， the status of customers complaints was analyzed and shortcomings of complaint link were elaborated. By virtue of mathematical tools， the prediction model based on massive customers complaints was established to determine the potential customers apt to complain. Thus， the appeal of customers could be solved before upgrade to enhance the satisfaction of customers.

[Key words]big data customer complaint decision tree prediction model

1 研究背景

随着移动业务产品、营销活动开展的多样化，客户建议、投诉越来越多，同时工信部对运营商新增了“用户申诉率”和“不明扣费申诉率”两条红线的考核，这也增加了运营商投诉部门的工作压力。面对客户规模化的投诉，应当建立更加科学化的系统管理机制，改善当前传统管理方式，使两条红线指标控制在合理的范围内，进而避免客户产生升级投诉，更好地提升客户忠诚度和满意率，增加业务产品的良好口碑。

数字化、系统化使得企业拥有大量的客户投诉数据，但并没有很好地利用这些数据进行挖掘分析，也未能有效地从这些数据中找到客户的需求点，无法真正了解客户的意图。服务及产品改进和创新需要了解客户最真实的需求，对客户投诉信息的挖掘和分析是关键。但是，目前还没有基于客户投诉信息来获得改进和创新思路的成功方法，更多是人工根据多年的工作经验进行浅层次的数据分析，难以形成说服力的建议。

因此，可以通过对客户投诉数据进行深度的大数据分析和挖掘，提炼出各维度的权重，从投诉信息中挖掘隐含的客户需求和商机，进而获得服务及产品改进和创新思路的方法。有效地利用客户投诉数据建立模型，对有升级倾向的投诉客户进行预判，在投诉升级之前预先解决客户的问题，以提高客户满意度。通过建模构建了中国移动投诉信息挖掘平台，使得信息处理系统化、有序化和智能化，工作价值得到进一步提升，从而形成长效工作机制，为中国移动转型和可持续发展提供强有力支撑和帮助，加强投诉信息利用和创新，提高企业核心竞争力。

2 客户投诉分析

2.1 客户投诉的现状

投诉是客户不满意的表达，更能贴切反映客户对产品业务的满意度。客户投诉数据主要通过文本和语音格式保留、投诉系统记录保留这两种方式存储。当前客户投诉信息主要用于解决客户投诉的具体问题，对投诉背后的隐性问题分析很少，也没有有效地通过投诉信息挖掘获得服务和产品改进、创新思路。另外，当前客户投诉处理环节比较传统化，未有较好的创新点。

2.2 客户投诉面临的问题

（1）投诉预警不及时

投诉预防不到位，缺乏事前分析的信息、工具，对客户投诉的热点问题、风险问题缺乏有效的监控手段。同时投诉处理环节效率较低，处理效果欠佳，相对应的投诉处理手段有限，未能做到精准的客户投诉信息定向挖掘。另外，应对客群关系欠缺有效的策略，导致投诉顽疾长期存在，投诉处理没有形成较好的闭环。

（2）投诉数据不准确

客户投诉信息中记录字段多，并且字段信息记录出现缺失、错误。另外，前台的手工填写文本字段太多，没有统一的分类选择标准，文本信息太过繁杂。而客户投诉信息的缺失、异常和噪声数据太多会直接影响数据挖掘结果。

（3）衍生的问题

由此衍生出升级投诉量波动大、升级投诉无法预测、投诉缺少过程管控、重点投诉无法规避以及关键环节无法回归、重点问题重复发生等问题，因此需进一步借助模型数据分析来优化并解决当前问题，以提升客户满意度。

3 决策树模型助力客户投诉

3.1 预测模型的处理方法

中国移动拥有海量的客户投诉数据并不断更新，要获得服务、产品改进及创新思路，必须借助数据分析和挖掘。利用数据挖掘技术提取可能升级投诉的客户，以达到事前预警升级的目的，可采用国际通用CRISP-DM（Cross-Industry Standard Process for Data Mining，跨行業数据挖掘标准流程）数据挖掘建模有效地解决这个问题。

CRISP-DM将模型分为6个阶段：商业理解→数据理解→数据准备→建模→评估→部署。CRISP-DM数据挖掘建模标准化流程如图1所示。

3.2 升级投诉预警模型数据挖掘实践

（1）数据准备

1）数据清洗体系建设

将升级投诉数据来源进行梳理整合，主要包括如下：

数据来源确认：确认升级工单的7个数据来源，对数据大小和数据质量进行初步验证。

数据质量管理：将缺失数据、异常数据、噪声数据进行数据清洗，保证数据符合建模的要求。

数据预备体系建设：将数据来源、数据清理、数据整合/规约、数据验证、入库等各阶段任务进行统一系统管理，实现整个前端数据处理流图的自动化和智能化管理。具体如图2所示。

2）数据梳理成果

在数据梳理成果中，主要是数据梳理的建模维度和字段，具体包括如下：

宽表设计：很多常用模型在集团规范中都有明确的业务描述和宽表设计，可以直接参考使用。业务人员结合经验定义宽表结构，并对宽表字段进行适当添加、删减、调整。技术人员在业务人员指导下对某些重要字段进行衍生，如通话次数衍生出占比、趋势、波动。

通过预先设定数据处理的可视化功能节点，以达到可视化进行数据清洗和数据转换的目的。针对缩减并集成后的数据，通过组合预处理子系统提供各种数据处理功能节点，能够以可视化的方式快速有效地完成数据清洗和数据转换过程。

数据清洗：对缺失数据进行填充，如终端信息不全由业务部门提供后补充。有些缺失数据也可以通过技术手段（如均值、中位数、众数等）填充。对业务意义相同的数据进行合并加工，如“NOTE3”与“note3”。诸如流量等指标会出现异常大/小的数值，可采取“封顶保底”或者分层的策略，视情况使用。

数据抽取：从不同的数据来源中，通过ETL（Extract Transform Load，数据仓库技术）工具或者编程技术生成宽表数据，供后期做数据挖掘。

3）数据梳理总结

在数据梳理过程中，针对遇到的各项问题采取了相应的解决方案，具体如下：

字段分类过多：分类字段的类别维度太小，渐趋于明细数据，如问题细项有940多个分类。字段分类过多容易造成模型过度拟合及泛化性能较差，可以在系统设定时采用选项的方式而不是手工输入方式。

数值型数据过多：基于特征选择的结果梳理字段后，参与建模字段中分类型字段有17个，数值型（连续型）数据字段有11个。对数值型数据的建模容易产生过度拟合或无属性可分的情况，可以采取分箱或手工生成衍生字段来解决此问题。

缺失值数据严重：部分重要建模字段的缺失值严重，主要是投诉反馈维度的相关字段，数据缺失值会导致模型的结果拟合效果差。基于数据状况，可以采用忽略该条记录、手工填补遗漏值、利用缺省值填补遗漏值等处理方法。

噪声数据：异常值（噪声数据）会严重影响后期的建模效果。对于异常点的数据，可以采用直接删除异常数据的方法，也可以基于异常点检验的方法再删除。

（2）数据探索

1）整体投诉数据统计分析

数据探索主要是整理历史客户的整体投诉数据，然后根据相关整理的字段、因子进行科学统计分析，探索数据特征。对客户整体和一次升级客户进行分析，从投诉问题分类、投诉业务、投诉问题的紧急程度等方面进行深入分析。

2）数据探索结果

根据数据探索发现，数据业务影响客户的升级投诉占比很大，同时费用投诉也是主要因素，总体概况如下：

涉及数据业务和国际/港澳台业务的投诉升级比率较高，并且这两部分客户的價值远高于普通客户，因此应重点关注这两部分业务的投诉客户，防止因投诉而流失重点客户。

客户在一次投诉没有彻底解决或没有相应答复时会第一时间进行升级投诉，这需要在发现客户投诉时第一时间安抚客户，防止因其情急而升级投诉。

费用和业务退订涉及到公司内部系统数据对质量管控的支持，后续可以建立与数据支持部门的沟通合作，对费用和业务查询快速响应，及时解决客户咨询的问题。

有过历史投诉的客户更容易升级，他们熟悉投诉流程，这需要建立重复投诉客户名单，防止客户多次升级投诉，并且当投诉和抱怨积累一定次数时，都会转化为升级。

针对一次升级客户，事件的紧急程度和处理结果的满意度与是否升级投诉没有直接关联。

（3）模型算法的选择

根据前期梳理的数据源，分析数据源中各字段属性，然后依据分类算法的对比分析，筛选出基于现有数据源最优的模型。

目前基于预测目标分类用户的算法模型有很多，比较常用的是逻辑回归、支持向量机、神经网络和决策树。具体如下：

1）逻辑回归是对训练数据的拟合，得到一个回归模型，对数据进行预测。

2）支持向量机是二类分类模型，为特征空间上的间隔最大的线性分类。

3）神经网络是模仿人体神经系统的感知机模型，算法较为复杂。

4）决策树是一种基本的分类与回归方法，它可以被认为是一种if-then规则的集合。决策树是数据挖掘技术中的一种重要的分类方法，它是一种以树结构（包括二叉树或多叉树）形式来表达的预测分析模型。

通过对逻辑回归模型、支持向量机模型、神经网络模型、决策树模型的详细介绍及模型应用场景的分析，基于现有数据源质量和模型的适用条件，最终选择决策树作为实施模型。

（4）建立模型

1）确定维度字段

对字段的重要程度进行初步预判，主要通过业务判断、特征选择、相关性分析选择影响模型的字段，将选出的字段参与特征选择过程，剔除对建模结果影响不显著的字段，同时将与结果相关性强的字段为母本衍生出新的字段，并直接剔除母字段即利用新生成字段进行建模分析。

基于7个数据来源，形成客户投诉属性、投诉反馈、客户消费行为、客户属性四大维度60个模型字段。经特征选择（主成份分析/降维）后，新增衍生字段维度，调整为五大维度28个字段参与建模。参与建模的维度字段如图3所示：

2）建模流程

通过决策树分类算法运算，得出评估模式的值或者预测值，最终将原始数据集进行分类，输出预测结果。建模流程如图4所示。

3）模型参数设置

决策树模型设计的重要参数有Boosting次数、N折交叉验证、决策树叶子修剪程度和误分类的成本，具体如下：

Boosting实验次数：Boosting采用投票方式判别，不会出现过度拟合问题，当实验次数设置越大时，花费时间越久。

交叉验证：设置折叠次数K次，则将数据分为K份，每次运行选择其中一份作检验集，其余的全作为训练集，该过程重复K次，使得每份数据都用于检验一次。

修剪严重性：表示决策树的修剪程度，为防止决策树过度拟合，需修剪决策树的枝叶，根据决策树节点的深度，一般设置为75～80。

误分类的成本：基于模型效果的评估，当设置矩阵中某一类成本高时，则模型会自动向成本低的方向移动，可以根据模型的目标追求准确率或覆盖率进行设置。

4）模型优化过程

初期模型中将7个来源表中的投诉数据進行合并，整合各个数据表中的因子、字段，根据整理出的原始数据，采用决策树模型中的C5.0算法建立模型，通过模型算法的运算得出模型样本的命中率为22%，能够有效地达到初期设想。为了提高模型预测的准确性，分别采用衍生字段、参数调优、分箱处理等方法对模型进行优化，具体如下：

衍生字段：针对原数据，区分7个来源表的投诉数据，衍生投诉来源字段，如是否来电原因。衍生服务请求级别字段，对其细化分类。

参数调优：根据字段细分结果，进一步优化衍生投诉类行为数据，如计算当前受理号码历史升级投诉次数等，对模型剪枝（75～80），增加模型预测错误成本。

分箱处理：对数值型变量进行分箱处理。

最后通过增加客户消费行为数据，对数值型数据分箱处理，采用C5.0算法建立模型，模型命中率提高为78%。

5）模型效果评估

判断一个模型是否可接受，需要考察该模型对数据集的分类效果，其中重要的检测指标是准确率、命中率和覆盖率。C5.0模型的结果可以通过分析节点，以输出矩阵的方式展现，模型结果还可以输出字段重要性的排名。根据模型训练结果，总体上能够有效地预测产生升级投诉的客户及原因，强有力地控制两条红线处于合理的区间。

6）模型部署

将构建好的模型导出为SQL（Structured Query Language，结构化查询语言）或PMML（Predictive Model Markup Language，预言模型标记语言）；将SQL或PMML嵌入脚本，定时执行脚本生成名单后派送。

4 结束语

本文基于大数据工具，利用客户投诉数据建立模型，构建了智能化的投诉信息挖掘平台。通过模型可以加强升级投诉预防工作，在降低客户投诉升级的同时提高客户满意度，并控制了两条红线，使得两条红线指标呈现良性化趋势。系统智能化集成简化了成熟的投诉处理流程，使得客户投诉问题的解决更加快捷和准确，节约了大量的人力资源，从而有效地降低了投诉处理成本。并且通过建模可以从投诉信息中挖掘隐含的客户需求和商机，进而获得服务及产品改进和创新思路的方法。

参考文献

[1] 薛薇，陈欢歌. 基于Clementine的数据挖掘[M]. 北京：中国人民大学出版社， 2012.

[2] 周志华. 机器学习[M]. 北京：清华大学出版社， 2016.

[3] 陆富琪. 电信增值业务及其发展模式分析[J]. 信息网络， 2004（3）： 21-24.

[4] 盛朕业，才凤艳. 顾客忠诚的内涵及价值衡量[J]. 商业时代， 2006（25）： 35-36.

[5] 郭丽丽，丁世飞. 深度学习研究进展[J]. 计算机科学， 2015（5）： 28-33.

[6] 左超，耿庆鹏，刘旭峰. 基于大数据的电信业务发展策略研究[J]. 邮电设计技术， 2013（10）： 1-4.

[7] 罗芳，李志亮. 基于分类的机器学习方法中的决策树算法[J]. 宁德师专学报：自然科学版， 2009（1）： 40-42.

[8] 季桂树，陈沛玲，宋航. 决策树分类算法研究综述[J]. 科技广场， 2007（1）： 9-12.

[9] 丁俊民，廖振松. 基于大数据建模的投诉预测与应用[J]. 信息通信， 2015（9）： 291-292.

[10] 董智纯，杨林，詹念武，等. 一种基于大数据技术的投诉分析与预测系统[J]. 信息通信， 2015（9）： 285-286.

[11] 周文杰，杨璐，严建峰. 大数据驱动的投诉预测模型[J]. 计算机科学， 2016（7）： 217-223.