时间:2024-05-04
陶箫珏 褚卫忠 管吉
(上海证券有限责任公司 上海市 200002)
以数据实现业务价值,将数据转化形成公司资产是金融科技数字化转型的大趋势,基于数据中台和业务中台的强大的数据计算、建模和灵活的服务配置能力,以“数”为据的客户分层、产品健全、渠道整合、团队赋能、服务增值、客户优化体验等都是数据智能应用生态层的可用场景。
客户识别模型是以细化客户画像为目标,为精准的营销做数据支撑,加速客户服务为结果的应用可优化部分[1]。以“数”为据的模型构建及应用是整个公司数据中台服务的重要应用。如何正确的认识客户是后续客户服务的前提[2],结合多种人工智能模型,业务导向自动化和服务效率提升是应用生态层优化的可实现环节。
基于大数据平台的计算应用能力设计构建基于各种数据模型的服务应用体系,如图1所示,以客户全覆盖的服务为目的,对应业务中台的不同的业务应用场景设计使用不同的运算分析模型,整合数据中台存积的海量客户行为数据、客户的基础信息、客户画像标签和统计扩展数据等多维度数据,助力业务部门快速地了解客户特征,模型结果将以多种形式展示应用在平台,在业务人员自主筛选分析的数据应用前,有针对性地、合理地引导业务方向。
(1)以业务规则或是行业规定为标准,设定条件作为经验判定,将客户进行前期的归类。例如正常客户、冻结客户、不合格客户、开户锁定的客户等等,这是作为业务前期分流的第一步。
(2)预测客户行为,利用客户多维的历史数据建立客户流失预警模型[3],对正常状态的客户将来状态进行预测, 预测客户是否会在下一个时间区间发生流失,将流失挽回的业务服务转换成流失预警[4],提前识别潜在流失客户,为挽留客户赢得时间;
(3)通过组合应用客户的识别聚类模型,帮助业务部门快速识别客户类型,通过客户的聚类模型有效的为业务人员筛选出不同等级的客户,通过多维度的数据帮助业务员人员分析不同类型客户的突出特征,助力业务人员进行分流客户管理。
(4)通过组合应用基于客户的推荐模型及基于最小交替二乘算法的产品推荐模型,向不同类型的客户推荐最可能感兴趣的产品或者说是客户最有可能购买的产品,通过组合应用到不同类型的客户类群,精准定位不同群体内客户产品偏好,助力业务部门为处于不同生命周期、具有不同商业价值的客户群体提供定制化的金融产品。
整个服务平台将以应用多种机器学习模型作为助力,帮助业务人员在不同场景下识别客户,引导促进后续的服务业务,帮助业务人员进行客户全覆盖管理,促进客户类别转换。
图1:基于数据驱动的服务分发
客户流失预警模型将以符合客户筛选条件的客户群体作为基础数据,针对这些客户的初始模型特征指标进行特征工程的筛选。对于行为的预测或判定有多种多样的模型可以完成,决策树或是神经网络等都可以通过历史数据的训练完成对客户未来行为的预测或是分类。逻辑回归模型是比较成熟的一种回归分类模型,在应用和计算方面都具有一定的优势。 模型训练产生一组特征变量对应的权重系数,模型将特征空间映射成一种可能性,即某一事件发生的概率。该客户流失预警模型的优点是计算简单明了,且变量和结果都具有可解释性。
逻辑回归的反应变量是二分类变量,对反应变量进行逻辑转化:
其中,β0是回归式的截距,βk是第k个预测变量的参数估计;Logit(pi)是事件发生概率的Logit,是发生比(odd)的自然对数。
模型通过训练数据得到各预测变量对应的参数估计后可以通过参数估计计算出测试数据的反应变量。逻辑回归的是对一事件发生的概率,即计算各预测变量的参数估计后计算出客户是可疑客户的概率。
模型的客户识别能力帮助业务从大量的正常客户数中找到最有可能流失的客户,快速的明确了业务的目标客户和后续服务方向,达到了初步的业务分流目的[5]。同时系统会生成流失预警名单,及时MOT推送,当有异常数据或是大量流失预警时,及时警示业务人员,快速提醒业务人员后续跟进。
无监督的聚类方法是比较普遍的一种硬聚类方法,依据样本的特征的相似度或距离,将样本归并到若干个“类”的数据分析问题。假设每个样本到其所属类的中心的距离最小。k均值聚类归结为是样本集合的划分,或者说是从样本到类的函数选择问题,k均值聚类的策略是通过损失函数的最小化选取最优划分或函数。
表1
当客户流失预警模型初步预测完成客户的流失预警分类,结合无监督的K-MEANS聚类模型进行客户群体的归属识别。该模型根据客户基础属性数据、客户交易数据、客户行为数据以及统计扩展数据等多维度的客户数据判定客户的群体,以客户到各群体中心点的欧式距离作为损失函数,整个聚类的模型就是通过损失函数的最小化选取最优的划分函数。
该客户群体聚类模型的介入实际上是针对业务人员的自主高级筛选功能的辅助。在许多实际的情况下,业务人员其实在筛选客户时是无从下手的。或者说只用某一两个指标来筛选客户对于分析客户来说是比较有局限性的,客户聚类模型提供的结果实际是帮助业务人员缩小了筛选的范围,从更多维度找到了相似的客户群体。为业务人员提供了一个业务方向的指引[5]。
应用客户聚类产生的客户群体并非是以单一或几个指标阀值简单筛选而得出的,在各个指标上没有明确的标准值,但正因为每个客户都是不同的个体,在争取千人千面的分析客户的同时,我们更不能以简单的几个指标来划分客户,应用客户群体的无监督聚类,帮助我们找到最为相似的客户,而不是几个指标相等的客户。在业务人员使用数据前,我们已经帮助他们分析聚类了相似客户群体,业务人员在作进一步数据分析或是业务筛选时,已大大缩小了客户范围,或是已有了明确的客户目标范围。
Spark 支持的ALS模型,即交替最小二乘算法在机器学习中特指用最小二乘法的协同过滤算法。它是一种支持不完整评分矩阵的矩阵分解方法, 是一个交替求解最优损失函数的过程,迭代降低误差,求取客户与产品的关系函数,是经过验证的比较有效的推荐算法。
根据客户与产品之间产生的关系矩阵将是一个庞大的稀疏矩阵。在矩阵分解的推荐算法中,产品的推荐预测是整合整个现有矩阵信息的, Spark MLib 中实现的基于ALS矩阵分解协同过滤算法, 结合Spark 并行计算框架,可以以函数优化的方式,求矩阵分解的最优线性方程,快速求解客户的最优推荐
U为用户的特征矩阵,V为产品的特征矩阵,Spark 使用的是正则化矩阵分解,评价矩阵分解使用的是RMSE, 通过最小化RMSE来学习用户特征矩阵和产品矩阵,在RMSE函数中加入了正则化项来减少过拟合。通过最小二乘的方法优化函数。
换句话说就是客户购买了产品,那么我们就假设客户喜欢该产品,而我们对这一假设的信任度高低使用的是购买量的大小,在我们的模型中是以该客户购买产品的交易金额作为衡量的标准的。模型的输入是一个客户与产品的低秩关系宽表,模型输出是所有曾经购买过产品的客户对每种产品的可能购买量。
在该模块中,模型结果快速有效的帮助业务人员在某一产品的推荐场景下,找到最有可能购买该产品的客户,或者针对某一流失预警客户时,推荐它最有可能购买的产品[6],模型的应用可以大大节省了人力资本的同时,有针对性的推荐产品也能降低客户对频繁推荐的排斥[7]。
如表1所示。
在整体服务应用生态层框架下,客户的流失预警,客户的价值分类,客户的产品匹配等都应用不同的数据驱动模型结合完成,实现业务数据化、数据服务化,节省人力成本的同时为客户提供最适合的服务,推荐最适合的产品。
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!