当前位置:首页 期刊杂志

基于电力营销聚类分析的数据挖掘算法

时间:2024-07-28

陈广兴

(广东电网有限责任公司佛山顺德供电局,广东 顺德 528300)

0 引 言

电力营销积累了大量用户信息及其用电行为数据,通过对该数据进行有效的聚类和分类分析,可以提取有价值的用户群体和用户用电特征,为后续的电力营销策略提供支持。按数据来源划分,电力营销系统采用了调度中心和终端数据实时发出的中央数据汇总,该数据具有状态多样化、变量类型复杂的特点,不利于统计分析。而采用聚类分析法可对其进行简约化处理[1-3],针对在不同运行状态下电力营销系统的数据挖掘和分析,提取有效数据及其之间的关联性,作为系统隐患检测的数据参考。因此,本文通过对聚类分析的数据筛选和数据类型的相异度进行计算。通过对该算法进行仿真实验,与其他相关算法对比检测了其可用性和有效性,可在制定系统安全稳定运行的规划方案设计中,提供高效的信息处理能力。

1 基于电力营销聚类分析的数据筛选

目前工作中使用比较多的聚类方法主要包括基于模型的聚类方法、基于网格的聚类方法和基于密度的聚类方法。本设计在电力营销聚类分析的数据挖掘算法中采用基于密度的聚类方法筛选数据[4]:设低密度区域为nd,用以分割聚类空间中的数据类;分割后的数据类高密度区域设为ng,其属性值为p。nd和ng表达式如下:

式中,v为所属空间数目;b1为低密度对象子区域数目;nr为当前节点属性的值域,a1为高密度对象子区域数目。

结合式(1),对电力营销聚类分析数据进行筛选,可表示为:

式中,p为分割得到的子区域数目;i为属性值的样本密度,也就是聚类分析数据筛选的数据对象,即筛选出属性值中出现频率最高的样本密度。

2 基于电力营销聚类分析数据类型的相异度计算

依据电力营销聚类分析原理对数据对象进行聚类,并通过数据结构和相异度矩阵获得数据间的相异度。数据相异度矩阵如下:

聚类分析数据相异度矩阵用来存放n个数据对象两两之间形成的差异。式中,n表示数据矩阵对象,其间的差异值用i和f表示,p表示属性。当差异值取正数时,f和i越接近于0,属性值p越大,则表示f和i不相似;否则,若f和i的取值小于0,p数值就会越小,说明f和i的相似度高。

在上述矩阵基础上采用聚类算法进行计算数据类型相异度,即将变量值度量化并进行标准化处理,如(3):

式中,sf表示变量值的绝对偏差值;mf表示f的绝对平均值。

基于式(3)计算数据类型相异度,如式(4):

式中,d(i,j)是对象i和对象j之间相异性的量化表示,且该相异性值通常是一个非负的数值,当对象i和j越相似时,相异性值就越接近于0,反之,值越大,且d(i,j)=d(j,i),d(i,j)=0。基于电力营销聚类分析的数据类型相异性计算如式(5):

式中,kl为聚类分析数据量。目前为止,完成了聚类分析数据类型相异度计算,接下来需要设计聚类分析数据挖掘算法的流程。

3 基于电力营销聚类分析的数据挖掘算法流程

聚类分析数据挖掘算法是大数据和数据挖掘最常用的经典算法之一,也是数据挖掘的关键技术。通过聚类分析算法可将物理或抽象对象的集合按照相似性进行分组,然后在相似的基础上,根据数据类型相异度挖掘出数据蕴含的潜在信息并进行数据分类。其算法如图1所示。

图1 聚类分析数据挖掘算法流程图

基于聚类分析数据挖掘算法流程完成聚类分析的框架设计,如图2所示。

图2 电力营销聚类分析框架

对输入的样本向量定义为 (v1,v2,…,vi,c),该向量由字段值vi和类型c组成,对应的数据记录结构也是类型标签+数值的训练集。其中,该标签也可作为输入的经验数据。完成分类后,可引入决策树算法进行数据挖掘,预测准确度:数据挖掘算法的基本策略设计如图3所示。

图3 数据挖掘算法的基本策略

其中,基于SLIO算法的修剪树表达式如(6):

式中,COST(DM)为编码成本;BCOST(M)为所有的分类错误数。

4 算法实例

设计仿真实验,通过算法实例对基于电力营销聚类分析的数据挖掘算法进行可行性和有效性验证。实例中所用到的数据来自数据挖掘网站,其关键数据主要为聚类数目和权重指数。其中,聚类数目用于与聚类样本的总数量比较,用以判断数据挖掘是否有意义。即,当聚类数目大于聚类样本的总数量时,数据挖掘才有意义。权重指数用来体现数据挖掘算法效果,指数越小,说明算法对数据挖掘效果越好;指数越大,说明数据挖掘效果越差。基于数据有意义挖掘需求,给出电力营销聚类数据相应的值,包括聚类数(JLN)、类间距(LJJ)、类内距(LNJ)和准则(ZZ),如表1所示。

表1 电力营销聚类数据参数值

算法实现过程大概分为六步:(1)根据问题定义,完成数据中的空值填补和一致性优化,做好数据准备;(2)创建数据仓库用以将多个数据源集合起来,形成目标数据并存放在数据库,作为下一步的数据应用准备;(3)为提高挖掘效率,将数值转换为数据集压缩形式;(4)根据实际需求,制定数据任务并使用SLIO算法挖掘数据;(5)通过与需求标准对比,筛选相关模式和有价值的信息;(6)基于决策树对最终数据进行转化,以便于理解的语言描述或展开形式呈现给用户。到此,完成基于电力营销聚类分析的数据挖掘算法过程。

分别使用本文设计算法和文献[3]中提出的基于支持度-置信度-提升度的配网自动化系统数据挖掘算法、文献[3]中提出的基于神经网络的数据挖掘算法,重复实验10次,得出实验结果进行对比,见表2。

由表2可以看出,三种算法中只有本设计中算法的挖掘速度更快,计算时间全都在1.0s以内;而基于支持度-置信度-提升度的配网自动化系统数据挖掘算法和基于神经网络的数据挖掘算法所用时间基本上在1.35s~1.84s范围之内,挖掘速度相对较慢。因此,在数据挖掘效率上,本文算法具有良好的可行性。

对本文算法与其他两种算法进行数据挖掘精确度测试以验证本文算法的应用效果,计算公式如(7):

式中,m为参与挖掘的项目数量;w为算法的实际挖掘数量;w'为预测挖掘数量。利用式(7)对上述三种数据挖掘算法的精准度进行计算并对比,结果如图4所示。

图4 三种算法测试精准度对比结果

通过图4所示的三种算法精准度对比可知,基于电力营销聚类分析的数据挖掘算法在引入决策树算法后,其计算精准度要远高于其他两种算法。随着数据挖掘数量的增加,本文算法的精准度也越来越高,接近93%左右,其他两种算法的最高精准度均在85%以下。

通过上述实验可知,本设计中的算法无论是在数据挖掘效率还是精准度方面均符合设计的可行性和有效性要求,能在一定程度上提高数据挖掘的可信度。

5 结 论

聚类分析在电力行业数据挖掘的应用,可通过制定合理的决策帮助提升电力企业的市场竞争力。而传统的电力营销聚类算法挖掘速度慢,精准度低,因此本设计所提出的基于电力营销聚类分析的数据挖掘算法,通过对数据挖掘结果进行合理的分析,可有效提升聚类数据类型的聚类性。结合算法流程设计中所用到的基本策略,可快速、精准地完成目标数据的提取。本文的数据挖掘算法创新点主要体现在两方面,第一方面根据聚类分析原理,实现对电力营销系统数据的筛选。第二方面通过求取聚类数据距离完成对数据对象的聚类分析,计算数据对象之间距离的相异度。通过相关实验测试结果,本文中算法在挖掘速度上基本在1.0s以内,比其他算法提速了40%左右;在数据挖掘精确度上也平均高出了20~40个百分点,由此证明了基于电力营销聚类分析的数据挖掘算法具有很好的可行性和有效性。

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!