当前位置:首页 期刊杂志

基于多分类机器学习模型的智能电表故障预测*

时间:2025-01-06

李 宁, 张 伟, 郭泽林, 袁铁江, 韩鑫磊

[1 国网新疆电力有限公司营销服务中心(资金集约中心、计量中心),国网新疆电力有限公司电力科学研究院, 新疆 乌鲁木齐 830000;2 大连理工大学, 辽宁 大连 116000]

0 引 言

经济的发展和技术的进步进一步推动了智能电网的建设步伐,智能电表作为用电信息采集系统的重要组成部分,其可靠性和采集准确性成为电力部门和用户最为关注的对象[1-2]。如何依据电表现有状态数据准确预测其发生故障的概率及类型,是智能电表健康管理领域的一个新兴热点课题[3-4]。

针对智能电表的故障预测问题,国内外已有相关文献研究。文献[5]设计了基于全称梯度下降树(Gradient Boosting Decision Tree,GBDT)的故障类型以及设备寿命周期的预测方法,并采用实际数据对设计的模型进行了有效性和先进性的验证。文献[6]提出一种基于多层贝叶斯B样条(Multilayer Bayesian B-Spline,MBBS)的电能计量设备故障率可靠性评估与分析模型,通过工程实例验证了所采用方法能评估电能计量设备故障率随时间的变化趋势。文献[7]针对不同区域电能表的故障率随时间变化的差异性问题,提出一种有效融合不同区域数据的威布尔参数模型电能表故障评估方法,并通过电能表故障样本进行验证分析。文献[8]基于时间序列建立综合时间序列预测模型,实现对批次电能表月故障数较准确的预测。文献[9]提出一种多分类器融合的电表故障预测方法,对故障数据预处理后,采用融合算法构建多分类器,但其融合策略本质上是一种投票机制,并未考虑不同分类器对于不同故障的识别能力。文献[10-14]均采用不同的多分类融合算法,应用于设备故障诊断、模式识别等研究中。

然而,智能电表故障数据结构复杂,不同故障类型下的样本数据量极不均匀[15],需要采用合理的采样策略以消除数据不平衡对预测结果的影响。此外,不同的机器学习算法优缺点各有不同[16-18],对于不同类型的故障其识别能力也有所区别,需要构建合理的多模型混合集成算法以提高预测结果的准确性。

本文首先对智能电表故障数据进行预处理,包括缺失值填补及异常值替换、消除冗余及不相关特征、提出并构建混合采样策略以消除数据不平衡特征;基于支持向量机(Support Vector Machine,SVM)、BP神经网络及随机森林算法3种机器学习算法,构建混淆矩阵并以此提出综合考虑不同分类器识别能力的多分类器融合决策函数,最后通过公共数据集和实际数据验证了本方法的有效性。

1 故障数据预处理

从电力部门直接获取的电表故障数据,由于多种因素的影响,导致采集的原始数据存在缺失值与异常值等情况[19-20]。此外,智能电表的故障类型众多,且各故障类型下的故障样本数据量不相同。以新疆电网为例,因故障原因被拆除的智能电表,其故障类型可达40余种,其中因电池欠压而拆除的故障电表占总数的35%,而占比较小的如仪用互感器损坏,仅占总数的0.008%。

同时存在与故障无关的特征属性,这些因素势必会影响分类模型的准确率。因此,对故障数据的预处理是非常有必要的。

11种不同故障类型的电表数量占比情况如图1所示。图1列举了11种不同故障类型的电表数量占比情况,按占比从大到小,故障类型依次为电池欠压、显示单元故障、计量芯片损坏、外观损坏、载波模块损坏、继电器损坏、电费扣减异常、过负荷、接口损坏、无线模块损坏、误差超差。

图1 11种不同故障类型的电表数量占比情况

1.1 缺失值与异常值处理

通过判断样本中数据单元是否为空来标记是否为缺失值,对于针对时间序列X[x1,x2…xn]的缺失数据,采用按照正态分布补全的方法,计算其均值μ和方差σ,生成符合正态分布的数据为

(1)

式中:N(μ,σ)——均值为μ和方差为σ的正态分布。

采用箱形图进行数据异常值的判断,定义范围为

[Q1-1.5IQR,Q3+1.5IQR]

(2)

IQR=Q3-Q1

(3)

式中:Q1、Q3——数据集的第一个和第三个四分位数;

IQR——第三个和第一个四分位数的差值;

式(2)表示阈值判断范围。计算故障样本中各特征属性的阈值范围,构建箱型图,不满足该范围的数据均认为是异常值,将含有异常值数据的样本进行剔除。

1.2 智能电表故障特征选择

电表故障数据集中的故障类型与故障特征属性是多对多的关系,即一种故障类型下包含多种故障特征属性,每种故障特征属性同样可以出现在不同的故障类型样本中。据电力公司统计,与智能电表有关的故障特征属性有生产厂家、通讯方式、供电单位、招标批次、招标数量、装表日期、拆表日期、工作时间、条形码、首检合格时间等。以“供电单位”这一故障特征属性为例,由于工作环境不同,不同供电单位下的智能电表发生的故障类型也不相同,因此认为“供电单位”是与故障类型强相关的特征属性。

假定一个故障数据集形式为D={(x1,y1),(x2,y2)…(xn,yn)},其中,xi表示第i个样本的特征属性信息,其维度为N,n表示故障数据集的样本数量,yi表示第i个样本的故障类型,任一故障样本的维度为N+1。第i个样本中,各特征属性与故障类型之间的关系为

ri=[ρ1,ρ2…ρk…ρN]

(4)

式中:ρk——第k个特征属性与故障类型之间的相关系数;

ri——第i个故障类型下的相关系数集。

ρk的计算过程为

(5)

式中:λk——第k个特征属性。

通过比较各特征属性与故障类型之间的相关系数,剔除与故障类型相关性小的特征属性,消除冗余特征和不相关特征,进而形成特征子集。

1.3 不平衡数据采样

前述已知,不同故障类型的样本数量差异较大,需采用一定的混合采样方法来消除不平衡数据的影响。数据集中共包含有N种特征属性,统计数据集中各特征属性所对应的样本数量Uj,j=1,2,3,…,N,求取N种特征属性所对应样本数量的平均值Mean_U为

(6)

本文所采用的混合采样方法是依据对数量较多的样本采用欠采样,对数量较少的样本采用过采样。若第j类特征属性所对应的的样本数量

(7)

式中:Uj——采样前的故障数据样本;

Uj′——采样后的故障数据样本;

Mean_U——N种特征属性所对应样本数量的平均值。

2 多分类器融合算法

SVM、BP神经网络以及随机森林是数据分类及故障诊断等领域最常用的几种方法,其优缺点各有所不同。SVM适用于规模大及维度高的数据集分类中,但需要先验知识且核函数选取标准不一;BP神经网络具有较大的容错能力,但收敛速度慢且易于过拟合;随机森林对异常值和噪声具有很高的容忍度,并且不易出现过拟合现象,但对于小数据或者低维数据,诊断准确率较低。构建多分类器的目的在于融合各个单一分类器的优点,进而提升模型的故障预测准确率。混淆矩阵用于表征分类器对于不同故障类型的预测能力,本文在其基础上构建评价矩阵并以此为各个分类器分配权重,进而建立多分类决策函数。

2.1 构建混淆矩阵

针对SVM、BP神经网络、随机森林3种分类器,若智能电表的故障类型有7种,则混淆矩阵的维度为7×7,即

(8)

CK——第K个分类器的混淆矩阵。

本文中K的取值为1、2、3。PK的计算方式为

(9)

式中:ml——第l种故障类型下所包含的样本数量;

nj——分类器输出的预测结果数量。

第i类故障与第j类故障以及第l种故障为相互独立互不影响的n种故障下的其中3种。

2.2 计算各分类器所占权重

构建评价矩阵EK(n×1)为

EK=CK·A·M

(10)

式中:A——n×n的系数矩阵,其对角元元素均为1,非对角元元素均为-1;

M——样本数量矩阵;

n——智能电表故障类型的数量。

第K个分类器所对应的权重系数λK为

(11)

2.3 构建决策函数

用XK表示第K个分类器的输出结果,综合考虑各个分类器的权重系数,将预测结果相同的分类器的权重相加,储存在矩阵Bj中,即

Bj=λp+λq,Xp=Xq

(12)

式中:Xp、Xq——第p个分类器和第q个分类器的输出结果;

λp、λq——第p个分类器和第q个分类器的权重系数。

构建决策函数F为

(13)

取权重和最大的类别作为故障样本的预测结果。多分类模型流程图如图2所示。

图2 多分类模型流程图

3 算例分析

3.1 模型有效性论证

为验证本文所构建模型的有效性,从机器学习公共数据集中选取7组数据作为模型验证样本。7组样本数据的数据量以及特征属性维度各有不同,可以较好地模拟实际的智能电表故障数据。选取7组数据,数据集样本信息如表1所示。

表1 数据集样本信息

表1中,标签数目表示该数据集中所包含数据的类别数目。

为了获取足够多的训练样本,同时兼顾测试样本的数量需求,以8∶2为比例划分训练集和测试集,在获得SVM、BP神经网络及随机森林3种机器学习模型对上述样本分类准确率的基础上构建多分类融合模型,并计算模型的分类准确率。

依据3种分类器对不同数据集的分类准确率,构建混淆矩阵并为各个分类器分配权重,得到多分类融合模型,将融合后的多分类模型与3种分类器对不同数据集的分类准确率对比。3种分类器以及多分类模型的分类准确率如表2所示。

表2 3种分类器以及多分类模型的分类准确率

由表2可见,经过融合之后的多分类模型在处理不同数据量及不同数据维度的样本时,其分类的准确率均得到有效提升,证明本文所提多分类器融合方法在分类准确率等性能上较3种分类器有所提升,可以用于智能电表的故障预测。

3.2 新疆电网实际故障电表数据集分析

本文采用新疆电网提供的一个季度内的智能电表故障数据,该季度一共拆除电表168 865台,去除因丢失、到期轮换等非故障原因所拆除的131 085台电表,一共有37 780台电表因发生故障而被拆除。去除接口损坏、过负荷、无线模块损坏等占比低于3%的故障样本,只统计电池欠压、电费扣减异常、计量芯片损坏、继电器损坏、外观损坏、显示单元故障、载波模块损坏共计7种故障样本。

经特征选择后剔除条形码、首检合格时间等无用及冗余特征属性,筛选出与上述7种故障具有强相关性的特征属性有生产厂家、通讯方式、供电单位、招标批次、招标数量、装表日期、拆表日期、工作时间共计8种。

对于拆表时间等各电表间互不影响的缺失属性,对其所属的故障样本进行剔除,对于招标批次、工作时间等与其他样本有关联关系并具有分布规律的样本,可以依据关联样本的分布规律将其缺失值补齐。

最终得到各故障样本,主要故障类别数量及占比如表3所示。

表3 主要故障类别数量及占比

每一条故障样本的维度为9,前8个维度属性为特征属性,第9个属性为类别标签,样本数量共计32 273条。将上述样本按照8∶2划分训练集和测试集,统计3种分类器对样本的预测结果,并计算各自的预测准确率。

以SVM为例,得到其混淆矩阵C及样本数量矩阵M分别为

(14)

M=[13 240,1 426,5 065,1 409,2 697,6 017,2 419]T

(15)

由式(10)、式(11)得SVM机所对应的的权重系数λ为0.570。3种分类器的权重系数如表4所示。

表4 3种分类器的权重系数

将训练集与测试集样本输入到依据各分类器权重系数构建的多分类模型中,得到其对各故障类别的预测准确率与3种分类器的预测准确率。预测准确率对比如表5所示。

表5 预测准确率对比

由表5可见,利用本文所提方法构建的多分类模型,在处理7种不同类型的电表故障时,其预测效果相比其他3种分类器均得到不同程度的提升,证明了本方法的有效性。

4 结 语

本文通过数据预处理将来自电力公司计量中心的故障电表数据做了较为全面的整理,并按一定比例划分训练集和测试集后,用于SVM、BP神经网络以及随机森林的预测准确率初步计算,进而为融合模型中的各个分类器分配权重,得到最终的多分类模型。通过对公共数据集的分类,验证了本文所提方法的有效性,进而采用新疆电网的实际电表故障数据进行故障预测,结果证明了本文提出的模型可以有效提升预测准确率。

由表5可见,多分类模型相较于BP神经网络及随机森林的分类准确率得到明显提升,而对于SVM的提升作用不够明显,这主要是因为SVM对处理数据量较大的样本有优势,而本文所选取的数据集是经过筛选后的数据量相对较大的样本。实际的智能电表包含样本数量较少的如接口损坏、过负荷等故障类型,SVM对于处理这一类型数据的能力会有所降低。

此外,电表发生故障时存在随机性与不确定性,导致故障原因不相同。据电力部门统计,电表的故障类型有40多种,本文并未考虑型号规格、开盖次数等与故障弱相关的特征属性,同时剔除了死机、停走等数据量极少的故障样本,因此在预测上述故障样本时,本方法存在一定不足。

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!