考虑哈希索引的电网数据集市海量信息索引系统设计

时间：2024-07-28

万婵，江疆，吴穹

(1.广东电网有限责任公司，广东，广州 510000；2.广东电力信息科技有限公司，广东，广州 510000)

0 引言

随着计算机技术的飞速发展，电力企业也逐步实现了信息化，而电网系统内部产生的数据信息也在急剧增长[1-2]。当前现有系统未创建完备的索引功能，为了提高电网系统的运行效率，设计电网数据集市海量信息索引系统具有重要的意义[3]。

文献[4]采用序贯贝叶斯搜索，通过调查噪声容限，优化目标函数，查找相关文档以进行技术辅助检索，完成高召回信息检索。但该系统查全率和效率较低，不能被广泛使用。文献[5]利用Agent实现信息在系统中的交互，分析信息索引等模块主要功能，通过查询机制实现电网数据信息检索，完成索引系统设计。但该系统未建立数据信息排序列表，导致系统在检索数据信息时稳定性较差。

因此，提出考虑哈希索引的电网数据集市海量信息索引系统设计方法。聚类融合处理数据信息进行提取与检索，提高系统查全率，结合哈希算法排序融合电网数据信息，提高系统检索效率，利用三个层次的B/S体系结构，以此增强系统的安全性，并设计系统主要功能模块，完成考虑哈希索引的电网数据集市海量信息索引系统设计。

1 电网数据集市海量信息的检索与排序

1.1 信息聚类融合处理

为了提高电网数据集市海量信息索引系统的查全率，在系统设计之前，需要对其数据信息进行聚类融合处理。如果数据信息检索输出的关联规则系数满足0<α<2，电网数据信息的控制变量满足1<μ<2，那么数据信息检索的信息融合度为

E(x)=μ

(1)

如果电网上的数据信息分布符合1<μ<2，那么所检索的状态估计值X就是正向的，并且必须满足数据信息检索的输出标准误差：

(2)

电网数据信息检索的关联规则属性集为

(3)

1.2 电网数据信息的提取与检索

在对电网数据信息进行聚类融合处理的基础上，能有效地进行数据的抽取与检索，提升了系统的检索查全率。设电网数据信息的聚类融合尺度为

(4)

引入模糊特征分组检测方法，获取电网底层的数据信息，设J(Wi)为数据信息分组检测的统计变量，将其进行简化为

(5)

根据差分进化方法，通过自适应调节电网数据信息的检索输入控制参数，线性迭代检索过程。如果i≠j、j=1,…,m被满足，则单一的检索节点i的匹配函数是：

(6)

划分电网数据信息的高维区域，所产生的数据信息检索结果的子序列如下：

(7)

利用模糊分组聚类算法对不同属性的电网数据信息进行了分组检测，得到了以下结果：

(8)

检索控制约束变量为

JI(nTB)=Acos(n*2πΔTB)-Bsin(n*2πΔTB)

(9)

通过提取的关联规则量[6]，得到数据信息检索的关联量为：

(10)

1.3 基于哈希算法的电网数据集市海量信息排序方法

利用哈希算法对所检索的数据信息进行排序融合，从而提高了系统检索的效率。基于哈希算法的排序列表，建立了以查询数据为中心的加权无向图：

G=(V,E,W)

(11)

式中，G中有边的两个节点是最接近的k个相邻点。将V作为节点集，其产生的具体步骤如下：

(1) 在集合V中放置所有侯选和查询数据信息q；

(2) 在集合V中合并该集合所有元素都是k的邻近；

(3) 将集合V1中全部元素替换成与集合V1中的所有元素的k相邻关系；

(4) 将集合V1中的所有元素并入V中；

(5) 重复步骤(3)、步骤(4)，直到集合为空集合。

G中两个节点之间的相似性与衰减因子之积，其权重为

(12)

式中，δ(q,i)是在节点i和q间最短的路径,τ是衰减基数，而Nk(i)是节点i的k邻近。基于哈希算法的排序列表结构如图1所示。

图1 基于哈希排序列表的加权无向图

图1中的衰减系数幅度用最接近查询数据信息的节点的尺寸来表示，重要性越高。

2 基于Web的电网数据集市海量信息索引系统设计方法

2.1 系统环境

为了方便系统以后的升级与扩展，该系统在设计时将经过排序后的电网数据信息和所有的运行程序安装在Web服务器上，使客户端实现真正的“0”配置，而且采用这种配置也十分有利于用户的维修和使用，电网数据集市海量信息索引系统的创建环境如表1所示。

表1 电网数据集市海量信息索引系统环境参数

2.2 系统结构框架

电网数据集市海量信息索引系统采用B/S三层体系结构[7]，系统的总体结构如图2所示。

图2 系统概念模型与物理结构

利用B/S三层体系结构，把整个系统分为三个不同的单元，即表示层、功能层和数据层，以防止客户机直接控制电网数据信息库，提高系统的安全系数，防止非法入侵，加强系统在检索时的稳定性。

(1) 表示层

表示层是包含系统显示逻辑的网页浏览器，其主要任务是接收用户的访问和请求。通过网络服务器验证后，通过HTTP协议把所需的网页发送给客户端，然后在网络浏览器上显示出来。

(2) 功能层

功能层是包含了系统业务逻辑的Web服务器，具有应用扩展的能力。主要的工作是从用户方接受请求[8]。将一个扩展的应用程序与一个系统数据库相连，通过SQL来处理数据，然后经由数据库服务器呈递至Web服务器，然后传回至客户端。

(3) 数据层

数据层是指以上提到的数据库服务器，包含了能够处理数据的系统逻辑。其主要任务是接收数据库的操作，完成查询、删除、修改等功能，并向服务器发送操作结果。

2.3 系统主要功能模块设计

系统功能模块设计如图3所示。

图3 系统功能模块

(1) 身份验证模块

身份验证模块是一个用户登录的模块，主要作用是通过用户的IP地址、数据库访问权限、页面跳转等来进行身份认证。身份验证模块流程如图4所示。

图4 身份验证模块流程图

从图4中可以看出，利用用户主机IP，在通过数据库访问进行页面跳转，验证用户身份是否符合，若身份验证符合，则进入检索系统开始使用；若身份不符合，则需返回数据库访问步骤进行重新验证。

(2) 账户管理模块

建立账户管理模块主要是为了保证数据库的安全与正确性。帐号管理模块主要是由系统的管理员来设定和管理帐号与权限组成，并对用户登录后的数据库进行管理。

(3) 编码维护模块

编码维护模块的主要功能是建立电网数据信息的分类，实现数据信息的编码管理，提高数据信息采集和数据信息检索的效率，便于数据库的维护。编码维护模块流程如图5所示。

图5 编码维护模块流程图

根据图5可知，提取后台数据库，对电网数据信息进行分类后，编码电网数据信息，实现数据库维护，提高信息采集和检索效率。

(4) 数据信息采集模块

数据信息采集模块首先添加了数据信息采集，对所检索的信息进行归类，对有无重复的信息进行检查，如果有，那么进行修改、删除或保存;如果没有，那么增加新的信息。数据信息采集模块流程如图6所示。

图6 数据信息采集模块流程图

根据图6可知，通过增加数据信息采集，检索出信息所属分类，验证数据信息是否重复，若信息重复，则进行修改与删除；若信息不重复，则重新添加数据信息采集。

(5) 修改与删除模块

修改与删除模块的主要功能是实现电网数据信息的成批修改、删除等功能，或者进行某一处或者某几处的特定数据信息修改与删除。

(6) 数据信息检索模块

数据信息检索模块的主要作用是把检索到的数据信息转换为编程语言，连接数据库进行提交、检索，分页显示，最终按需要检索和显示有关的所有信息。数据信息检索模块流程如图7所示。

根据图7可知，将数据信息翻译为检索系统程序语言，并提交至数据库进行检索，若检索结果为空，则输出空结果；若检索结果不为空，则显示检索信息。

图7 数据信息检索模块流程图

3 实验与分析

为验证所提方法是否有效，实验对文献[4]方法、文献[5]方法和所提方法进行检索效率、查全率和稳定性对比测试。基于Lucene实现系统主要功能模块关键代码如下:

public static void main(String[] args) throws IOException { String indexDir="C:UsersasusDesktopjavainformation-retrieval-systemindex";BufferedReader br = new BufferedReader(new InputStream-Reader(System.in));String str = null;System.out.println("Please enter the keywords you want to search:");try { str = br.readLine(); System.out.println();} catch (IOException e1) {e1.printStackTrace();} String temp = str;String[] suggestions = checkWord(str);if (suggestions != null && suggestions.length != 0){ System.out.println("What you may want to enter is:"); for(int i = 0; i < suggestions.length; i++){ System.out.println((i+1) + " : " + suggestions[i]);} System.out.println("Please select one of the correct key-words above (enter 1 ^ 5), or continue to search with the original word (enter 0)"); str = br.readLine(); System.out.println(); if (str != "0"){ str = suggestions[str.charAt(0) - '1']; } else{ str = temp; }}try { search(indexDir,str);} catch (Exception e) { e.printStackTrace();}}

实验背景如表2所示。

表2 实验环境与各项参数

3.1 检索效率

文献[4]方法、文献[5]方法和所提方法的检索效率对比结果如图8所示。

图8 不同方法的检索效率对比结果

从图8可以看出，与文献[4]方法和文献[5]方法相比，所提方法具有较高的检索效率。因为该系统利用哈希算法排序融合电网数据信息，减少了存储空间，从而提高了系统检索的效率。

3.2 查全率

查全率是一个重要的指标，它反映了一个系统对与用户有关的数据信息的检索能力。公式为

(17)

文献[4]方法、文献[5]方法和所提方法的查全率对比结果如图9所示。

图9 不同方法的查全率对比结果

由图9可知，相比于文献[4]方法和文献[5]方法，所提方法的查全率较高。由于该系统利用数据挖掘中的关联规则，对电网的数据进行抽取和检索，保证了检索的准确率，因此系统查全率也最高。

3.3 稳定性

文献[4]方法、文献[5]方法和所提方法的稳定性对比结果如图10所示。

由图10可知，所提方法在检索数据信息的过程中是最稳定的。因为本系统采用了B/S三层结构，把整个系统分为表示层、功能层和数据层，从而避免了客户端直接控制电网的数据，提高了系统的安全性，有效地阻止了非法用户的侵入，因此系统在检索时能够更加稳定。

图10 不同系统的稳定性对比结果

4 总结

针对当前索引系统在设计时存在检索效率差、查全率低、稳定性差的问题，设计考虑哈希索引的电网数据集市海量信息索引系统，在系统设计前，采用关联规则的挖掘结果对数据进行提取与检索，并利用哈希算法对电网数据信息进行了排序融合，通过B/S三层体系设计系统架构和各功能模块，该系统设计方法的检索效率更高、查全率更高、稳定性更好。