当前位置:首页 期刊杂志

基于云计算平台的政务大数据系统自动检索方法研究

时间:2024-05-04

高峡 吴涛 高月仁

摘 要:传统检索方法查准率和查全率相对较差,导致自动检索精准度较低。为此,提出了基于云计算平台的政务大数据系统自动检索方法研究。在云计算平台下,利用CiteSpace软件对政务大数据系统中的关键词进行统计分析,获取相关资源。在电子政务联机模式下,揭示政务大数据系统中资源相关属性,在MapReduce挖掘模型支持下,进行政务大数据系统数据挖掘,实现政务大数据系统自动检索。实验验证分析,该方法检索查准率和查全率较高,具有高效检索效果。

关键词:云计算平台;大数据系统;自动检索

中图分类号:TP393      文献标识码:A

Research on Automatic Retrieval Method of Government

Big Data System Based on Cloud Computing Platform

GAO Xia1,WU Tao2 ,GAO Yue-ren3

(1.Tangshan Caofeidian Development Investment Group Co., Ltd,Tangshan,Hebei 063200,China;

2. North China University of Science and Technology, Tangshan,Hebei 063200,China;

3.Tangshan Caofeidian Liancheng Technology Co., Ltd, Tangshan,Hebei 063200,China)

Abstract:The accuracy and recall of traditional retrieval methods are relatively poor, which leads to low accuracy of automatic retrieval. In response to this problem, a research on automatic retrieval methods for government affairs big data systems based on cloud computing platforms is proposed. Under the cloud computing platform, CiteSpace software is used to perform statistical analysis on keywords in the government's big data system to obtain related resources. Under the online mode of e-government, the resource-related attributes in the government's big data system are revealed. With the support of the MapReduce mining model, data mining of the government's big data system is performed to realize automatic retrieval of the government's big data system. The experimental verification analysis shows that the method has high retrieval accuracy and recall, and has an efficient retrieval effect.

Key words:cloud computing platform; big data system; automatic retrieval

随着信息时代的到来,云计算和大数据技术为人们提供了丰富的信息资源,具有真实性高、多元化和实时性的特点,在人类社会的生产和生活中发挥着重要的作用[1]。据互联网数据中心统计,每天被创建和复制的数据总量为1.8ZB,而生成这样规模的信息量只需10分钟。如此庞大的数据信息,给云计算平台集成数据的检索管理带來难度,尤其面对互联网政务服务体系,公共服务信息集成的数据占社会总量的90%以上,大大增加了云计算平台的政务大数据系统检索的工作量[2]。由于政务部门数据的类型复杂多样,半结构化数据和非结构化数据较多,如何有效进行采集、存储、分析、处理等一系列数据的挖掘管理,需要建立新技术的大数据自动检索方法,以提高大数据信息的检索工作。目前已有相关研究,文献[3]根据Lucene索引原理,改进缓冲区索引容量,并优化磁盘文件索引书写频率。通过对单进程Lucene索引安插并行Map Reduce计算模块,构建并行Lucene全文检索引擎,实现大数据的检索。文献[4]提出考虑了云服务器可信状态,在支持用户在密文上提出多关键词语义排序搜索技术,通过引入域加权评分概念,结合数据信息权重对关键词进行扩展,提升数据查全率,在此基础上创建的文档向量分块,过滤检索过程中无关信息,提升查询效率。

但上述方法无法在保证高查全率的同时,提升系统查准率,为此,提出基于云计算平台的政务大数据系统自动检索方法。这种新技术的政务大数据自动检索方法是通过对数据特征和信息内容的分析,采取与之相关联信息的挖掘整理,在云计算环境下实现对政务大数据的自动检索工作。这种基于云计算平台的政务大数据系统自动检索方法的研究与应用,改变了传统数据检索技术的准确性差、效率低的缺点,提高了数据检索的精准性和高效性。

1 基于云计算平台政务大数据系统资源抓取与整合

云计算平台通过对政务数据进行集中抓取和整合管理模式,明确政务各主体之间的关系,并对数据信息采取计算、分析和优化处理,配置和调用大数据系统中反复出现频率最高的关键词,保障了政务大数据系统的统一性和准确性[5]。通过对CiteSpace软件的关键词进行统计分析,获取政务相关的热点关键词知识图谱。

云计算平台通过对政务大数据系统资源的关键字自动搜索,并将搜索的结果保存到数据库中,根据获取的网页数据使用Jsoup解析网页,自动提取所需信息并存入资源库之中[6]。

1.1 资源抓取

对数据资源进行检查、清洗,排除存在的残缺数据和废弃数据,抓取有价值的数据资源。全部数据清洗整理完成后,对数据特征进行特定条件的匹配,经过格式化处理进行数据的存储,提高了后续数据处理的速度和效率[7]。云计算平台政务大数据系统资源的抓取,具有良好的一致性、完整性和准确定,保障了数据资源的质量[8-10]。

XML格式文档中各字段基本信息说明如表1所示。

在政务大数据系统资源的抓取过程中,需将上述说明信息导入excel格式文件之中才能进行[11]。

1.2 资源整合

由于抓取的数据资源种类繁多、信息资源规模巨大,必须对海量数据进行整合处理,以保证政务大数据系统能够容纳大量的信息资源[12]。通过对不同位置、不同来源信息资源进行挖掘、存储、整合管理,使信息资源清晰明确、有序规范,有利于用户在对信息资源检索时快速准确地获取信息资源[13]。针对政务大数据系统信息资源的广泛性和多元性,在云计算技术的支持下开展信息检索方式、协议标准和技术等方面的资源整合[14]。

(1)对分散的不同位置、不同来源的数据信息进行整合管理,形成一个有序的数字资源体系,方便数据资源的搜索与查找[15]。

(2)改变原始资源库存在的信息资源繁琐、多样化状态的管理方式,进行新的资源整合,使资源库信息结构形成统一、规范的信息系统,提高资源的管理。

(3)通过对网络通信协议的标准整合,采用先进的技术方法,能够在同一界面内完成不同资源库资源的检索[16]。

2 政务大数据挖掘

在数据挖掘技术中,需要针对数据属性的表层信息、内在关系和隐含信息等进行挖掘提取。而政务大数据信息规模庞大、类型多样、内容复杂,如果从这些海量数据当中挖掘提取出隐性潜在的信息资源,来满足用户不同概念和模式、不同规律规则的信息资源,需要采取创新分布式并行挖掘新技术。这种先进的分布式并行数据挖掘技术,改变了传统串行数据挖掘算法存在的耗时长、效率低并且只能适用于小规模的数据处理的缺点,发挥了精准性、时间短、高效率的优点,并能进行大规模数据的处理工作。

基于云计算的政务大数据挖掘技术,采用分布式并行数据挖掘方式对系统中集中存储的全部数据集,进行分别的任务拆分并交由每一个单独机器进行处理。任务分解处理完成后,再把处理好的数据资源进行集中汇总起来,其中,集中汇总将采用模糊C均值聚类算法进行,则其表示为:

JFCM=∑Ni=1∑Rj=1uij(Di-vj)2(1)

式中,uij表示聚类系数;Di表示分解前任务数量;vj表示分解后任务数量;N、R均为实数。这种分布式并行数据挖掘算法的设计,不仅极大地提高计算效率,同时保证了计算集群扩展性。计算方法采用在MapReduce云计算环境中的挖掘模型,开展大规模数据集的挖掘计算提取,程序员对Map(映射)函數中各分块数据指定处理过程,并对Reduce(规约)函数中分块数据指定处理的中间结果进行挖掘,则挖掘输出为:

W(s)=JFCM4(1-14)m-1λ(2)

式中,λ表示数据挖掘强度;m表示各分块数据数量。通过模型计算结果表明,分部式并行挖掘计算方法在政务大数据中的应用,不仅有效提高了数据挖掘效率,还发挥了计算集群的良好扩展性。

3 政务大数据系统自动检索

3.1 字典建立

随着政务信息种类不断的扩展,系统自动检索集成先进的中文自然语言处理技术,建立一个字典来满足检索需求。在业务数据资源逐渐增多的发展中,由于字典单词的有限性,在进行单词的智能扩展搜索中,需要对字典单词进行实时的更新和维护,通过对字典进行分类管理,实现扩展增加单词、删除单词的管理,并对词典类别进行分类展示、批量导人和搜索。利用elastic search默认分词词库构建基本分词词库,主要包括主词典词库、介词词库、量词词库、姓氏词库等,扩展增加了基本分词词库的内容,可以进行自动完成或手动添加的方式。

3.2 信息索引机制建立

为了以最快的速度得到搜索结果,建立了信息索引机制。存储服务器在进行并行分布式检索时,可以采取标题、关键字等进行信息的广度索引,也可以对所需的重要信息进行优先索引。检索完成后的结果收录在Index Repository中,网页收录在搜索引擎的索引,搜索过程在Index Repository进行。这两种采用广度优先算法和深度优先算法的检索方式,实现了信息挖掘的个性化服务,提高了检索服务的质量。根据存储器在并行分布式检索中的工作流程,建立牵引机制图形,以用户提出请求的搜索过程进行信息搜索,如图1所示。

信息索引机制的工作原理,就是采用广度优先搜索或个性化深度优先搜索,把索引存储器中的倒序索引列表或页面内容抓取到本地数据库,通过关键字或标题等信息采取不同的检索技术。

3.3 自动检索方案实现

根据用户提出的查询要求,把页面内容或关键字提交给检索请求代理,索引存储器将检索代理发送的关键字或页面内容信息进行匹配,并按照检索结果进行查询相关度的排序后,把检索结构返回给用户,完成整个检索工作流程。自动检索方案的实现,不仅极大地提高了检索速度,还有效增加了查询的实时性和准确率。如图2所示。

自动检测过程通过对数据资源的统一整合,采取对数据进行检查清洗,去除重复破损等信息过滤的技术手段,开展数据的分析、排序、挖掘和提取,并采取不同的检索方法,最后对检索结果进行处理,完成自动检测过程。

4 实验研究

为了验证基于云计算平台的政务大数据系统自动检索方法研究合理性,需先设计实验环境,在该环境下对数据查准率、查全率进行验证分析。

采用Matlab7.0软件,进行检索系统的仿真,得到检索仿真软件,其检索界面如图3所示。

4.1 实验数据选取

以“政府开放数据”数据库为例,在上述云计算实验平台下,通过对动态信息库的访问,创建任务检索目标,选取某政务动态信息为研究对象,设置数据选取流程,如下所示:

①根据URL地址获取原始政务信息资源;

②依据获取的信息资源,进行筛选与剔除处理,选取最为合适的资源信息;

③根据XML格式文档,建立相应数据模型;

④依据信息选取路径,获取相关政务内容;

⑤将上述选取的两种政务信息资源Q1、Q2内容存储到文档之中,并保存。

4.2 查准率对比结果与分析

将传统方法与基于云计算平台检索方法的查准率进行对比分析,结果如图4所示。

Q1:在实验次数为2次时,基于云计算平台检索方法的查准率比传统方法要高45%;在实验次数为4次时,基于云计算平台检索方法的查准率比传统方法要高52%;在实验次数为6次时,基于云计算平台检索方法的查准率比传统方法要高53%;在实验次数为8次时,基于云计算平台检索方法的查准率比传统方法要高42.5%;在实验次数为10次时,基于云计算平台检索方法的查准率比传统方法要高62%;在实验次数为12次时,基于云计算平台检索方法的查准率比传统方法要高71%;在实验次数为14次时,基于云计算平台检索方法的查准率比传统方法要高63%。

Q2:在实验次数为2次时,基于云计算平台检索方法的查准率比传统方法要高45%,与Q1查准率一致;在实验次数为4次时,基于云计算平台检索方法的查准率比传统方法要高55%;在实验次数为6次时,基于云计算平台检索方法的查准率比传统方法要高53%,与Q1查准率一致;在实验次数为8次时,基于云计算平台检索方法的查准率比传统方法要高72%;在实验次数为10次时,基于云计算平台检索方法的查准率比传统方法要高73%;在实验次数为12次时,基于云计算平台检索方法的查准率比传统方法要高66%;在实验次数为14次时,基于云计算平台检索方法的查准率比传统方法要高63%,与Q1查准率一致。

4.3 查全率对比结果与分析

将传统方法与基于云计算平台检索方法的查全率进行对比分析,结果如表2所示。

在Q1政务大数据资源下,采用两种文献方法在实验次数为2次时,查全率达到最高为76%。而所研究方法在实验次数为2、8、10次时,查全率达到最高为96%。

在Q2政务大数据资源下,采用两种文献方法在实验次数为2次时,查全率达到最高为77%。而所研究方法在实验次数为12、14次时,查全率达到最高为98%。

5 结 论

随着科技的快速发展,依据云计算平台和大数据技术的基础上,实现了基于云计算平台的政务大数据系统自动检索方法的研究。通过对政务大数据信息资源的抓取和整合,实现了数据信息的统一规范的管理;对数据信息的挖掘、排序和提取,建立信息自动检索机制和方案。采取广度检索和深度优化检索的不同检索方式,不仅提高了自动检索的速度和准确率,同时还满足了用户个性化访问检索的需求。

大数据检索技术具有速度快、准确率高的优点,还可以实现海量、大规模数据检索的请求,适用于各业务系统的数据信息的检索。随着智能型、多媒体产品的增多,在图形、声音和视频等许多大数据的检索技术中,应需进行不断的研究和创新,以促进未来大数据检索技术的快速发展。

参考文献

[1] 江国文. 基于云计算的船舶大数据并行调度算法研究[J]. 舰船科学技术, 2018, 3(20):142-144.

[2] 劉建鑫. 智能化媒体发展的引擎——基于大数据和云计算技术的应用观察[J]. 青年记者, 2018, 2(1):50-51.

[3] 刘永花, 杨丽娜, 王静宇. 基于MapReduce的增量式全文Lucene引擎并行检索[J]. 控制工程, 2018, 7(8) :1540-1546.

[4] 杨旸, 刘佳, 蔡圣暐, 等. 云计算中保护数据隐私的快速多关键词语义排序搜索方案[J]. 计算机学报, 2018, 41(6) :1346-1359.

[5] 苏钰雅. 基于云计算的高校财务绩效动态评价模式研究[J]. 会计之友, 2019, 4(8) :147-150.

[6] 周雪辉, 李浩宇. 云计算下基于激光虚拟的远程实验室系统设计与实现[J]. 激光杂志, 2018, 6(10):165-170.

[7] 胡伏湘. 基于大数据的智慧职教——内涵、平台设计与应用[J]. 中国职业技术教育, 2017, 7(3):85-91.

[8] 杨露. 大数据背景下农业企业电子商务商品图像特征提取检索的方案设计[J]. 电视技术, 2018, 5(11):82-86.

[9] 陈建平, 贾志杰, 徐彬. 地质数据本体构建及其在数据检索中的应用[J]. 地质通报, 2018, 37(5):945-953.

[10]贾贺, 艾中良,贾高峰,等. 基于Solr的司法大数据检索模型研究与实现[J]. 计算机工程与应用, 2017, 53(20):249-253.

[11]王华树, 张成智. 大数据时代译者的搜索能力探究[J]. 中国科技翻译, 2018, 31(4) :26-29.

[12]毛万华. 铁路客运电梯安全物联网大数据平台构建研究[J]. 铁道运输与经济, 2018, 5(12) :71-75.

[13]宋相龙, 李楠, 肖克炎, 等. 矿产资源潜力评价成果数据信息管理系统设计与实现[J].地学前缘,2018, 25(3):196-203.

[14]蔡晨, 罗可. 融合BTM和图论的微博检索模型[J]. 计算机工程与科学, 2019, 7(8) :1512-1518.

[15]李默. 数字政务大数据系统个性化移动视觉搜索机制研究[J]. 政务大数据系统理论与实践, 2019, 6(2) :107-112.

[16]张建坤, 禹思敏. 面向混合型位置大数据的差分隐私聚类算法[J]. 计算机工程与设计, 2019, 6(9) :2451-2455.

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!