时间:2024-07-28
江疆,彭泽武,苏华权
(广东电网有限责任公司, 广东, 广州 510000)
电网智能化的发展,使得行业动态、气象信息、工商用户等跨行业数据大量融合,并呈现高容量、快速性、多样性等大数据特征[1]。同时,跨行业数据为HMSD,存在大量非结构化数据,无法用传统数据分析方法进行准确的不良数据分析,影响电网稳定运行和规划,也降低了数据的安全性[2],限制电网智能化的发展。有学者认为,电网智能化发展的目的是满足应用场景需求,所以从负荷预测、运行状态、电能质量检测角度出发[3],分析大数据下HMSD,可以提高不良数据的识别准确性。也有学者认为,大数据中的HMSD价值较低,且非结构化数据比例较高[4],可以通过提取特征值的方式,提高HMSD的价值,并减少数据的处理量。基于上述背景,本文利用Metropolis接受准则进行特征值的分析,从应用场景的角度分析HMSD,以提高不良数据的辨识准确度。
电网大数据HMSD有两方面特点,一方面是海量、低价值和多样性数据,且非结构化数据比例>50%;另一方面,数据多源性,且为动态获取方式,数据结构如图1所示。
图1 HMSD数据描述
由图1可知,HMSD数据的来源多样,是跨行业数据的综合,需要通过计算、观察和测量等方式获得[5]。HMSD数据的结构以非结构化、结构化形式为主,且与EMS、PMS和GIS等数据源联合,形成海量的大数据。HMSD要从应用场景出发,结合配电网负荷、电网运行、电能质量等角度分析,实现不良数据的高效检出。
电网信息化、电力需求影响因素多样化,使得大数据特征日益凸显,传统用电分析方法无法完全适用各种场景需求。遗传算法、粒子群算法、支持向量等智能预测算法可以满足体量大、类型多的电网大数据需求,实现电网负荷、电网运行、电能质量的预测分析。下面对电网应用场景的参数进行设定[6]。
(2) 假设N为HMSD中的任意数据,i为数据来源的行业,j为数据的结构类型(结构化数据=1,否则=0),k为数据的获取方式(定性方法获取=1,定量方法获取=2,综合获取方式=0),l为数据安全监测装置(注:1~5等级,数值越高等级越高),m为场景中智能信息采集装置,那么信息采集项可以描述为Ni,j,k,l,m,i,j,k,l,m=(1,2,…,n),n为自然数。
(3) 适用场景为单位,将类似的行业来源、结构类型、获取方法、安全监测等级和采集装置的数据划分到同一应用场景中。
(4) 所有场景的信息均由电网智慧中心集中分析,在预测准确性、预测时间和安全等级的条件约束下,对获得的数据按照相关权重、阈值进行排列。
(5) 任何场景中的数据采集时间、数据安全等级相同或类似[7]。
(6) 场景分析的稳定性,要采用傅里叶级数的方法,减少设备、人员和其他非抗拒因素的干扰。
(1)
其中,P为场景分析描述的抗干扰能力,t为抗干扰测量时间,y为数据加密程度,z为传输距离,z为传输安全等级,ξ为干扰系数。
不同场景采集的数据资料需要先进行k-means处理,处理公式如式(2)
(2)
其中,S为聚类的范围,即数据聚类的程度,其值越小说明聚类效果越好,I为场景采集的数据信息,i为信息的编号。另外,S可以用相似度J代替,以此提高计算的效率。为了简化流程,可以利用某一数据出现的频率进行权重判断,即依据以往历史数据,或者电网数据库中的数据频率,判断场景设备采集到的数据阈值,其计算公式如式(3)
(3)
其中,Gij为j设备采集i信息的次数,Gi为i信息在电网数据库中出现的次数,Gj为j设备发送信息的频率,wi为i信息的阈值。
电网进行大数据跨行业融合场景分析前,要对各场景依据相关标准进行归类与判断。本文采用退火模拟算法的Metropolis接受准则[8],如果应用场景符合电网实际需要,则采集相关数据,否则将不接受该场景数据,并将所有设备处于“休眠”状态。Metropolis接受准则判断节约了电网硬件资源,也减少了跨行业数据量[9]。
假设应用场景所处状态为Ti,则对其进行Metropolis接受准则分析,判断该状态是否需要改变,即由i状态向i+1状态改变,其计算公式如式(4)
(4)
其中,exp()为期望函数,判断是否要进行状态改变,R(T)为应用场景状态改变的结果函数。如果R(T)的结果处于0~0.5,说明状态的改变程度较低,可以维持原有状态。如果结果处于0.5~1之间,说明应用场景需要改变,或者被“激活”、处于“休眠”。
应用场景与跨行业数据的拟合分为[10]:局部拟合Pc、整体拟合Pm,从不同方面反映两者的拟合情况,也是不良数据计算的前提。Pc、Pm值越大,代表数据拟合度越好。由于2.1中的Metropolis接受准则限制,要求两个数据均为最优,才能成为计算数据,所以其计算公式如式(5)、式(6)
(5)
(6)
其中,N1,1,0,1为Pc的初始值,N1,1,1,0为Pm的初始值,Rmin为整个融合数据的最小值,Rc为局部最小值,Rm为整体最小值,φc为局部拟合系数,φm为整体拟合系数。
不良数据计算前要构建相应的数据序列,本文采用适度函数来明确跨行业大数据与应用场景之间的关系[11]。适度函数在预设精度、阈值约束的条件下,进行多次迭代分析,引导算子向正方向计算,降低局部极值,“假特征值”的出现率[12],提高不良数据计算的准确性,具体公式如下。
(7)
基于上述的数学描述,需要进行以下几方面的计算:
(1) 设置初始应用场景C={c1,c2,…,ci}值,数据拟合(局部拟合Pc、整体拟合Pm)和计算精准度的阈值,HMSD的数据Ni,j,k,l,m值,以及初始的Metropolis接受准则;
(2) 对拟合后的数据进行梯度200次迭代测试[13];
(3) 依据Metropolis接受准则、约束条件,验证计算结果,并将符合要求的结果纳入到Total方案中,并计算整体方案的不良数据识别准确度和计算时间[14];
(4) 判断所有的数据i是否均被遍历,则如果是则终止计算,否则转入步骤(3);
(5) 最后输出Total方案中的最小值,退出计算过程。
以2020年跨气象、交通、电力行业、工商的大数据为例[15],分析风力、太阳能、水利等应用场景下电网负荷、电网运行、电能质量数据,确定其中不良数据的判别准确率和时间。数据拟合(局部拟合Pc、整体拟合Pm)精度和计算精准度设置为0.1,迭代次数200次,其中,数据采集装置为电能表102,3个,电压表209,2个,变压器102个,服务器6台,通信协议为TCP/IP、HTTP等,SQL数据库4个,拓普瑞电网检测系统6.0,数据传输密码为64 Bit,光纤、Wi-Fi、GPS通信,信息安全等级3级,遵循2015年版《电网运行准则》(GB/T 31464),IP地址为192.168.1.102~192.168.1.202。
通过k-means聚类和Metropolis接受准则,对跨行业数据、应用场景数据进行标准化处理,并进行150次迭代分析,得到数据拟合结果,如图2所示。
图2 应用场景与跨行业数据的拟合结果
由上图可知,大数据局部拟合、应用场景局部拟合较高,均>95%,而整体拟合较低,但是也>90%,说明整体拟合较高,也符合k-means聚类和Metropolis接受准则设置的阈值10%的要求。
电网大数据跨行业数据融合应用场景分析的关键指标是电网负荷判断xi,电网运行状态判断xj,电能质量判断xk,3个指标中不良数据的辨识精准度,直接决定整个模型有效性。通过MATLAB仿真分析可知,上述3项指标中不良数据的识别精准度均>95%,而初设阈值和《电网运行准则》中的要求为0.1,所以仿真结果较佳,结果如图3所示。
图3 不良数据的辨识精准度
跨行业数据融合的特点是数据具有大数据特征,数据处理量大,处理复杂度高,所以不良数据的辨识时间是另一个验证指标。结果显示,电网负荷判断xi,电网运行状态判断xj,电能质量判断xk中不良数据的辨识时间均<7 s,电能质量、负荷判断中不良数据的辨识时间<4 s,主要是由于运行的计算过程相对复杂。但是,整体的不良数据的辨识时间,均符合《电网运行准则》中的要求,结果如图4所示。
图4 不良数据的辨识时间
电网智能化的快速发展,使得跨行业数据融合越来越多,诸如,气象、交通、电力行业、工商等[16],且数据量、复杂度等方面呈现大数据特征[17],使得传统的分析方法无法满足相关场景分析的要求,致使不良数据辨识准确率大幅下降[18]。本文提出的一种基于k-means聚类和Metropolis接受准则的分析方法,通过对跨行业数据、应用场景数据标准化处理,得到精度为0.1的拟合数据。然后,利用遗传算法和迭代计算,得到电网负荷判断xi,电网运行状态判断xj,电能质量判断xk等指标的不良数据辨识率。MATLAB仿真结果显示:3项指标中不良数据的识别精准度均>95%,而初设阈值和《电网运行准则》中的要求为0.1。同时,3项指标中不良数据的辨识时间均<7 s,且电能质量、负荷判断中不良数据的辨识时间<4 s,整体判断结果较佳。
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!