当前位置:首页 期刊杂志

基于数据中台的面向多级调度管理业务数据资源检索方法

时间:2024-05-04

傅晓菲,陈 涵,陈 磊,翁斌新,严 安

(1.国网福建省电力有限公司福州供电公司数字化部,福州 350002;2.国网信通亿力科技有限责任公司数据管理事业部,福州 350003)

0 引言

近年来,信息技术发展迅猛,应用范围不断扩大,致使每个行业的数据资源体量急剧增大。根据调查研究数据可知,2021 年中国产生数据资源总量约为6.6 ZB,位居全世界第二位,同比增长率高达29.4%,并且数据资源增长速率逐年递增,“大数据时代”悄然来临[1]。电力工业是社会基本能源支持体系中的关键构成单元,在信息技术作用下也进入大数据浪潮之中。伴随着电力行业信息化水平的提升,再加之物联网技术、云计算技术等的普遍应用,其数据资源总量也呈现着指数级别增长,并形成了一定的规模。电力行业具有一定的特殊性,其根据区域不同划分为多级管理部门,部门之间沟通会产生较多的调度业务数据资源,是电力行业管理的主要依据。

不可再生能源储量的减少,用户电力能源需求剧增,再加之工业生产效率的加快,工业用电需求也出现大幅度增加,为电力行业提出了较大的挑战,多级管理部门之间的调度业务数据资源随之越来越多,为调度业务数据资源的处理、存储、检索等性能提出了更高的要求。多级调度数据资源检索是电力行业管理过程中的关键环节,如何在海量数据资源中寻找到需求的调度数据资源是现今电力行业管理领域亟待解决的问题之一[2]。为了满足电力行业的可持续发展需求,提出基于数据中台的面向多级调度管理业务数据资源检索方法研究。

1 面向多级调度管理业务数据资源检索方法研究

1.1 电力行业数据中台搭建

为了能够清晰掌握多级调度管理业务数据资源的实际架构,搭建电力行业数据中台,为后续数据资源的分类处理奠定坚实的基础。

数据中台本质上是一种数据管理体系,核心能力为数据汇聚整合、数据提纯加工、数据服务可视化与数据价值变现,能够为电力行业其他部门提供业务数据资源与计算服务。简单地说,数据中台就是“数据仓库+数据服务+中间件”,每个构成部分承担不同的功能,具体如下:①数据仓库:存储结构性数据、离线数据、非结构性数据、实时数据等;②数据服务:数据研发、数据计算、数据分析、数据可视化等服务;③中间件:结构分为三层,分别为垂直数据层、公共数据层与萃取数据层。

相较于大数据平台来看,数据中台具备业务属性,并能够提供数据处理相关技术,可以为数据资源检索提供一定的便利。基于多级调度管理业务数据资源的实际情况,搭建电力行业数据中台,具体结构如图1所示。

图1 电力行业数据中台结构示意图

如图1 所示,电力行业数据中台结构主要包含五部分,具体内容如下:

(1)数据模型。搭建数据中台能够沉淀多种数据模型,其均具备较好的通用性,通过层次化对数据模型进行相应的管理,构成数据模型仓库,对数据资源进行标准化存储。

(2)数据服务。数据服务是数据中台最根本的能力,其主要是根据调度业务实际情况,以服务导向对核心对数据进行封装处理,上述过程难度系数较大,其他中台几乎无法完成。数据封装服务对象主要为开发人员与业务分析人员。

(3)数据开发。数据模型与数据服务是数据中台的基础,其无法满足前端个性化的需求,而数据开发是前端与后台之间的关键桥梁,主要划分为三层结构,分别为标签库构建、数据开发平台架构与环境/组件,通过层层递进、协作,共同为不同层次工作人员的需求提供数据深入挖掘、开发等服务。

(4)数据治理。数据治理贯穿整个数据中台结构,主要承担着数据资源管理的任务,其具备完整的制度、技术与管理行为等。常规情况下,多级调度管理业务数据资源必须保障实时性与准确性要求,故数据治理具有至关重要的作用。

(5)数据资产。数据资产是电力行业的关键资源,反映着数据价值得到了行业的重视[3]。数据中台可以打破“数据孤岛”现象,使得各个数据模型之间能够进行数据共享,形成真正意义上的数据资产。

上述过程完成了电力行业数据中台搭建任务,为后续数据资源处理与检索打下坚实的基础。

1.2 数据资源分类处理

以上述搭建的电力行业数据中台为基础,应用其具备的数据资源预处理技术——深度学习模型,分类处理多级调度管理业务数据资源,为最终数据资源的检索提供便利。

深度学习模型具有不断迭代、灵活发展等特点,非常适合调度业务数据资源的分类处理[4]。若是直接对多级调度管理业务数据资源进行检索,其体量极为庞大,数据资源类别混杂,会浪费较多的时间,并且检索结果也不如人意。因此,此节应用深度学习模型对数据资源类别进行划分,只需根据需求数据资源类别,在对应类别数据资源子集中检索即可,可以大大降低检索的时间,提升数据资源的检索效率[5]。

基于深度学习模型的数据资源分类步骤如下:

步骤1:提取数据资源特征

随机选取两个数据资源,记为Xi与Yi,设定其来自于不同数据资源区域,其对应的跨区域转换过程表达式为

式(1)中,εa,b(· ) 表示数据资源跨区域转换函数;a表示数据资源携带信息的权重系数;b表示数据资源的偏置参量。

以式(1)输出结果为基础,对数据资源Yi特征进行提取,提取结果表示为

式(2)中,β表示数据资源特征参量;α表示数据资源之间的关联强度;n表示数据资源总量。

步骤2:数据资源特征分析

以步骤1输出结果——数据资源特征β为基础,计算数据资源之间关联的损失数值,表达式为

式(3)中,̂表示数据资源的关联损失数值,将其作为数据资源分类处理的约束条件,能够最大限度地降低数据资源的丢失现象。

步骤3:以步骤2 计算结果δ̂为依据,制定数据资源类别划分规则,具体如下式所示:

式(4)中,δ°表示数据资源类别划分阈值,需根据实际数据资源情况进行具体的设置。

依据上述步骤对全部数据资源进行遍历,直至所有数据资源均以划分至类别子集中为止,将最终结果记为R={r1,r2,…,rm},m代表数据资源类别总数量,可以为后续研究提供一定的便捷作用。

1.3 数据资源索引设计

索引设计是数据资源检索性能提升的关键所在。以不同类别数据资源特点为基础,结合层次化索引思想,构建双层索引结构,为数据资源检索提供充分的依据。

数据资源双层索引结构如图2所示。

图2 数据资源双层索引结构示意图

如图2 所示,第一层数据资源索引结构主要针对数据资源属性构建的,属性内容均存储在非叶子结点中。其中,Zi表示数据资源具体属性,PType表示数据资源类型,Pointer表示指向第二层索引结构的指针。第二层数据资源索引结构主要针对数据资源数值构建的,数值信息存储在B+树非叶子结点中,并且叶子结点具有一定的顺序。其中,ZiKj表示第i个属性的第j个属性值,Doc表示数据资源查询的关键编号,其是唯一的,F表示标识码,Loc表示数据资源属性值所在位置信息。

上述过程完成了数据资源双层索引的设计与深入分析,为后续数据资源检索的实现做好充足的准备工作。

1.4 数据资源检索实现

以上述设计的数据资源双层索引为依据,应用DTW 算法度量数据资源索引之间的相似性,当相似性数值大于或者等于设定阈值时,确定其为数据资源检索目标,从而实现数据资源的精准检索,为多级调度管理业务数据资源的应用提供有效的帮助。

DTW 算法本质是一种非线性技术,有效地结合了时间规整与距离度量,能以最小代价匹配最接近的数据资源,即能够在最短时间内寻找到需求的数据资源[6]。基于DTW 算法衡量数据资源索引相似性,表达式为

式(5)中,ϑ(ϵ,μXi)表示需求数据资源索引信息ϵ与数据资源索引μXi相似性数值;τ表示标准因子。

依据公式(5)计算结果,制定数据资源检索目标判定规则,具体如下:

(1)当ϑ(ϵ,μXi)大于或者等于阈值ϑ*时,认定数据资源Xi就是检索目标;

(2)当ϑ(ϵ,μXi)小于阈值ϑ*时,认定数据资源Xi不是检索目标。

需要注意的是,阈值ϑ*的具体取值还需要根据实际数据资源体量、结构等信息进行设置。

综上所述,实现了面向多级调度管理业务数据资源的检索,为数据资源的寻找与应用提供有效的帮助。

2 实验与结果分析

选取深度学习驱动的跨模态数据检索[7]与一种面向动态地球磁层的数据组织模型和高效检索[8]作为对比方法1 与2,设计数据资源检索对比实验,验证提出方法的应用效果,具体实验过程如下。

2.1 实验准备阶段

准备阶段是实验顺利进行的关键环节。依据实验需求,准备阶段具体内容为实验工况设置。为了提升最终实验结论的精确度,设置10种差异性较大的实验工况,具体如表1所示。

表1 实验工况设置

如表1 所示,设置的实验工况数据资源总量与数据资源类别均不一致,每种实验工况均具有不同的实验环境,符合提出方法应用性能测试需求。

2.2 实验结果分析

依据上述实验准备阶段内容,进行数据资源检索对比实验。选取数据资源检索时间与检索结果中正确数据资源占比概率作为评价指标,以此来直观显示提出方法的应用效果。

通过实验获得数据资源检索时间如表2 所示。

表2 数据资源检索时间

如表2 所示,相较于两种对比方法来看,应用提出方法获得的数据资源检索时间更短,最小值为0.98 s。

通过实验获得检索结果中正确数据资源占比概率如图3所示。

图3 检索结果中正确数据资源占比概率

如图3 所示,相较于两种对比方法来看,应用提出方法获得的检索结果中正确数据资源占比概率较大,最大值为98%。

上述实验结果显示:与对比方法1与2相比较,应用提出方法获得的数据资源检索时间更短,检索结果中正确数据资源占比概率较大,充分证实了提出方法应用效果更好。

3 结语

电力行业信息化水平的不断提升,再加之电力需求的急速增加,使得多级调度管理业务数据资源体量随之增大,对其处理、应用性能提出了更高的挑战与要求。现有检索方法无法适应如此大体量的数据资源环境,故提出基于数据中台的面向多级调度管理业务数据资源检索方法研究。提出方法极大地缩短了数据资源检索时间,提升了检索结果中正确数据资源占比概率,为数据资源的检索及其应用提供更有效的方法支撑。

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!