时间:2024-07-28
陆怡菲,王昱杰,孙赵辰,陈安哲,许明敏,姜 维
(国网浙江省电力有限公司嘉兴供电公司,浙江 嘉兴 314033)
随着新型电力系统建设的不断深入,大量新型终端设备接入电网,电力专用SIM 卡作为新型终端的通信核心,仅在国网浙江省电力有限公司嘉兴供电公司(简称国网嘉兴供电公司),其使用数量已突破13 万张,每年的SIM 卡成本费用达百万元数量级。所用SIM 卡涵盖三大运营商,包括20 余类套餐,流量从15 M 到20 G 不等。SIM 卡业务主要涉及移动作业终端、智能配变终端、I 型集中器、II 型集中器等。
电力专用SIM 卡最初主要用于集抄业务,该业务模式稳定,所需套餐单一。但随着新兴业务的增长,各类新型智能终端被大量运用于电力生产中,如移动作业终端、新型融合终端、巡检机器人、无人机、线路监控微拍装置、布控球等,这些终端均需要大流量的SIM 卡支撑。相较于传统的小流量集抄及公专变电量采集、状态监控类数据采集,新型业务的SIM 卡流量及资费呈指数级跃升。随着SIM 卡涉及业务的多元化,各业务部门对使用场景和终端工况的不确定性,套餐申请完全依赖于个人的经验,从而造成部分SIM 卡实际流量与所申请套餐流量不匹配,造成资费的浪费。由此可见,原有的业务管理模式已难以应对新兴业务SIM 卡的套餐选择,且由于SIM 卡数量庞大,依靠人工难以实现科学高效的管理。因此,亟需一种精准高效的方法用于推荐新兴业务的SIM卡最优套餐。此外,以往的粗放式管理模式导致SIM 卡存在高配低用、低配高用以及零流量闲置卡等历史遗留问题,也急需精准有效的手段用于判断存量SIM 卡套餐是否合适以及如何调整。
目前,众多学者对电力行业SIM 卡的管理已开展了大量研究工作,针对SIM 卡台账数据和管理流程进行治理和完善,但没有对SIM 卡数据中的潜在信息进行进一步分析,并实施套餐优化。文献[1-2]利用深度神经网络LSTM 预测潜在的SIM卡异常用户并做出预警和管控,但没有对SIM 卡套餐是否合理以及如何进一步优化SIM 卡成本进行研究。
针对上述现状,基于SIM 卡流量及资费数据,构建套餐合理区间模型区分正常使用SIM 卡与待优化SIM 卡,基于Adaboost 算法利用正常SIM卡数据训练SIM 卡成本优化模型,并使用该模型预测待优化SIM 卡所适用的最优套餐,及时调整不合理套餐。此外,根据套餐推荐结果,刻画各业务类型SIM 卡的流量使用特征,在套餐申请阶段即可做出推荐,从源头上节约成本,实现企业的提质增效。
数据主要来源于国网嘉兴供电公司所有在运电力专用SIM 卡的账单,共计有132 435 张SIM卡。其中,中国移动SIM 卡数量占比最大,约占68.48 %;其次是中国联通,约占26.94 %;中国电信数量占比最少,仅有4.58 %。
算法共分为数据预处理、待优化SIM 卡数据筛选、成本优化模型训练、待优化SIM 卡套餐择优推荐四个步骤。
2.1.1 数据清洗
1) 去除唯一属性。唯一属性通常具有唯一性,这些属性并不能刻画样本自身的分布规律,比如SIM 卡的IP 号等,去除这类属性不影响数据分布。
2) 去除无用属性。无用属性是指该SIM 卡中一些共有且不对样本分布造成影响的通用属性,删除这类属性对数据分析无影响。
3) 异常数据识别。如某张SIM 卡有暂未激活等异常情况,则对该数据进行剔除。
2.1.2 SIM 卡特征提取
将所有SIM 卡的所属套餐类别由原先文本形式进行重新标签化,映射至数字,以便后续机器学习进行模型训练。
最终提取的数据特征主要包含:卡号、实际流量1、实际费用1、实际流量2、实际费用2、实际流量3、实际费用3、所属套餐类别,其中实际费用和实际流量包含连续三个月的数据,让数据包含更丰富的随时间变化的历史信息,从而让算法能够做出更精准的判断。
经过预处理后的数据中包含了套餐选用合理的SIM 卡,同时也存在着大量套餐待优化的SIM 卡,因此准确筛选出合理的SIM 卡和待优化的SIM 卡对后续套餐推荐至关重要。一般情况下,合理区间由人工确定,这种分类形式没有充分利用大数据所包含的信息,容易造成误判,从而导致正常数据量偏少。因此,通过建立临界值加波动范围收敛模型用于判别每个套餐的正常使用区间。首先,将不同套餐按标准流量排序,根据流量与资费之间的计算规则,计算出相邻套餐之间流量使用的临界值,流量使用在临界值之上的选择高一档套餐更优惠,而在其之下的则相反。在此基础上,根据SIM 卡每月使用流量具有波动性的特征,加上一个波动范围,即将临界值+波动值定义为合理波动区间,同时定义连续三个月的流量都在合理波动区间内的SIM卡为正常SIM 卡,否则为待优化SIM 卡,如图1所示。
图1 套餐合理区间判定示意
通过筛选,选择出21 289 张待优化SIM 卡,图2 展示了不同类型的待优化SIM 卡数量占比,其中实际流量低于临界值下界的占比77 %,说明大多数待优化SIM 卡都是套餐流量使用率极低的;其次是连续三个月零流量的SIM 卡,占比为21 %。最后是实际流量高于临界值的,占比为2 %。
图2 不同类型的待优化SIM 卡数量占比
筛选出正常SIM 卡后,对所得到的正常SIM卡套餐数据进行分类模型训练,学习SIM 卡特征数据与其所属最优套餐类别之间的映射关系。
常用的分类算法包括支持向量机(support vector machine,SVM)、朴素贝叶斯分类(naive bayes classification,NBC)算法、决策树(decision tree) 算法、 自适应增强(adaptive boosting,Adaboost)算法、随机森林(random forest)算法、K 最近邻近(K-nearest neighbor,KNN)算法、人工神经网络(artificial neural network,ANN)算法等。在实际使用中,基于决策树、随机森林等的分类方法并不是很契合SIM 卡数据量大、属性较多、特征结构非线性等特征;KNN 算法在SIM卡套餐类别不平衡时,预测偏差比较大,且每一次分类都会重新进行一次全局运算,对于样本容量大的数据集计算量比较大;而ANN 算法训练时间过长,且存在陷入局部极小值的情况,从而达不到学习的目的,同时对于输出结果难以进行合理解释,影响到结果的可信度。
经过对不同算法的优缺点比较以及结合实际应用场景,选用Adaboost 算法进行模型训练。Adaboost 算法是一种经典的集成学习算法,其将多个弱分类器集成起来,以达到较高的分类准确率,广泛应用于数据分类、人脸检测等应用中。Adaboost 算法的原理为前一个基本分类器分错的样本会得到加强,加权后的全体样本再次被用来训练下一个基本分类器;同时,在每一轮中加入一个新的弱分类器,直到达到某个预定的足够小的错误率或达到预先指定的最大迭代次数,原理见图3。
图3 Adaboost 算法原理
图3 中{(X(i),Y(i))}m代表训练样本点;φ1,…,φb代表b个学习器;θ1,…,θb代表b个学习器对应的权重;公式f(X)=Σθjφj(X)代表将多个学习器乘以权重后相加。
Adaboost 算法的优点主要有:可以灵活将不同的分类算法作为弱分类器;很好地利用了弱分类器进行级联,相对于引导聚集(bootstrap aggregating,Bagging)算法和random forest 算法,Adaboost 充分考虑的每个分类器的权重,可同时降低模型的偏差和方差;具有很高的分类精度,训练误差以指数速率下降等。将Adaboost 算法应用于SIM 卡成本优化模型的训练,利用提取的正常SIM 卡数据特征作为模型的输入,通过Adaboost算法训练后,最终得到最优套餐推荐模型。
得到成本优化模型后,将筛选出来的待优化SIM 卡数据提取特征,然后输入该模型中,模型最终预测输出的套餐作为该待优化SIM 卡的最终推荐套餐。
为检验提出的算法模型精度,将算法模型对待优化SIM 卡进行套餐推荐后是否落入定义的合理区间作为判断依据,对算法套餐推荐结果的准确率进行计算,最终得到Adaboost 算法准确率为98.31 %,均高于其他算法(naive bayes 算法为97.59 %、neural net 算法为97.58 %、SVM 算法为97.56 %、KNN 算法为95.74 %、deesion tree算法为95.74 %、randon forest 算法为90.48 %),其可以精准判断出待优化SIM 卡所最合适的套餐。
通过对所有SIM 卡推荐套餐结果的分析,算法刻画了不同业务类型的SIM 卡流量使用特征,可对今后新申请同类型业务的SIM 卡套餐进行预申请推荐,在源头上节省成本费用。
算法将89.8 %的SIM 卡预测套餐推荐为2.2元套餐(15 M),由此可见大部分业务(如I 型集中器、II 型集中器、新型智能开关、智能配变终端等)每月消耗流量较低,适用于小流量套餐(15 M或30 M)。而移动作业终端这类业务则更适用于300 M 的大流量套餐。
随机选取一张属于4.7 元(标准流量30 M)套餐的待优化SIM 卡,其连续三个月的实际流量和实际费用如表1 所示,每月实际费用和流量均超标。
表1 某待优化SIM 卡实际流量及实际费用
将SIM 卡各特征数据映射至高维特征空间,可以看出其实际属于5 元套餐,而原套餐为4.7 元套餐。算法成功将其推荐为5 元套餐类别,使其流量不超标且每月费用降低。
基于大数据分析的SIM 卡成本优化模型将各类SIM 卡重新定位至合理套餐区间,对新申请业务卡做出套餐推荐,从源头上降低成本;根据历史存量SIM 卡的使用情况进行重新评估,并推荐最优套餐,实现了所有SIM 卡套餐的最优配置。
在经济效益方面,算法对21 289 张待优化SIM 卡进行套餐推荐后,理论上每月可节约4.85万元,节省比例约为50.47 %,每年可累计节约58.20 万元,降低了SIM 卡费用成本。
在时间效益方面,通过预处理、数据筛选、特征提取、模型训练和套餐推荐等一系列流程对所有SIM 卡数据进行处理所需时间只需要1 h。相比于人工筛选并判断所需的445.3 h,时间大幅缩短,且避免了大量重复性劳动导致的出错率。
基于Adaboost 算法构建的SIM 卡成本优化模型以及SIM 卡套餐优化方案具有“三准”(界定准、判定准、推荐准)特征,其创新如下。
1) 首次提出套餐合理区间智能选择,相比于人工界定更加科学。
2) 将Adaboost 算法应用于SIM 卡数据筛选,得到高效精准的套餐推荐模型,套餐推荐准确率达98.31 %;指导新增业务SIM 卡套餐选择,并及时优化调整现有SIM 卡套餐配置,实现全部SIM 卡的套餐最优配置,在满足电力业务需求的同时,降低SIM 卡运营成本,助力企业提质增效。
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!