时间:2024-09-03
◆林 涛
(广东省电信规划设计院有限公司 广东 510630)
电信企业为稳定和提升政企客户的通讯业务收入和市场份额,需要有效跟踪评估企业通讯活跃度,这通常是从企业通讯行为数据中挖掘。工商局在册企业往往缺乏完善的通讯行为数据,仅依靠企业经营数据分析通讯活跃度是一个难题。
本文根据现有企业通讯与经营数据,通过统计分析和熵权法进行特征工程[1],构造企业通讯活跃度指标,结合经营数据训练CART 决策树[2]模型,挖掘企业经营数据与通讯活跃度之间的隐含关系。
为充分挖掘企业经营数据与通讯活跃度之间的关系,需要设计有效的建模流程,本文采用客观的熵权法筛选重要通讯特征,并利用能够获取判别规则的CART 决策树模型进行建模。
本文首先对前后两年企业通讯和经营数据进行数据清洗,接着利用统计学方法检验两年通讯数据差值变化差异是否具有显著统计学意义,经过特征筛选,构造新特征,然后使用熵权法选择重要通讯特征,结合业务逻辑设计通讯活跃度指标,最后结合企业经营数据训练CART 决策树模型。
熵权法是一种客观的特征重要性评估方法,其仅依赖于特征数据所包含的信息量,利用信息熵对信息的量化,可以计算出每个特征的权重,主要遵循信息熵值越小,信息量越多,特征权重越大;信息熵值越大,信息量越少,特征权重越小的原则。熵权法的计算步骤如下:
设数据集包含n个特征和m个样本。
Step1:对于每个特征j,其中的每个数据xij计算其贡献度pij;
Step2:计算特征j的信息熵Ej,其中k
Step3:计算特征j的权重wj;
CART 决策树算法是一种二叉树模型算法,其具有运行效率更高,支持离散型和连续型数据,能够返回可解释的分类规则等特点,因此应用范围非常广泛。其模型生成是一个递归过程,在每一步中首先计算特征中,每个特征值所划分的两个数据子集的基尼系数,即计算
其中Si表示第i个数据子集,Pk代表第k个类别的频率,然后再计算出特征按该特征值划分数据集的基尼系数,即 其中A表示特征,a表示特征值,ni表示第i个数据子集Si
中的样本数目,N表示数据集S的样本数目,接着找出使基尼系数最小的特征及其特征值作为树模型的分支节点,如此递归求解,直至满足算法终止条件。
本文主要针对前后两年企业通讯和经营数据进行分析,分别包括通讯需求、行为、消费、信用等方面通讯特征,以及企业属性、经营状态、经营活动等方面企业经营特征。
原始数据经过极端值、缺失值、业务异常值等处理,以及统计数据分布筛除不可用特征后,得到能够进一步分析的有效数据。
针对前后两年企业通讯数据,利用秩和检验方法检验每个通讯特征的两年差值数据是否具有统计学意义。经分析后得到,大部分通讯特征的差值变化显著,剔除不显著特征后,以剩余特征的两年差值作为新通讯特征,接着利用熵权法计算出每个新通讯特征的权重并排序,最终从数据分布特点和业务规则两方面,筛选出企业固话差值与宽带差值两个重要特征,即:
根据上述两个重要特征,按如下规则构造出企业通讯活跃度指标:
通过上述预处理,将企业通讯数据信息利用企业通讯活跃度指标来表征。本文以通讯活跃度作为数据标签,结合清洗后的企业经营数据形成数据集,并划分为训练集、验证集和测试集,其中按前二者占80%、后者占20%进行随机均匀抽样,训练时利用十折交叉验证寻找最优超参数。
按上述训练方案,CART 决策树模型学习了企业经营数据与通讯活跃度之间的内在关联关系。利用所训练的模型不但能够仅靠企业经营数据判别出企业通讯活跃度,同时决策树模型还可以返回明确的判别规则,突出重要的企业经营特征。
本文将现有全量企业数据按地域划分为珠三角在册企业、非珠三角在册企业等2 个数据集,分别利用当年企业经营数据与相应的通讯活跃度组成的数据集训练模型,并利用召回率、精确率、准确率等评价指标在测试集上对模型进行评估,具体评估结果如表1 所示。
表1 模型评估结果
由评估结果可知,本文提出的企业通讯活跃度分析模型具备良好的判别能力,并且在召回率上可以达到95%以上,其中模型判别企业通讯活跃度的准确率基本能达到90%以上,表明模型能够根据企业经营数据判别出通讯活跃度。
本文通过秩和检验和熵权法筛选出重要通讯特征,并以此构造出企业通讯活跃度指标,结合企业经营数据训练CART 决策树模型。根据实际数据检验模型,本文模型在各项评价指标上都能达到90%以上,表明本文提出的建模方法能够有效判别企业通讯活跃度。
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!