当前位置:首页 期刊杂志

矢量大数据高性能计算模型及关键技术

时间:2024-05-04

罗钊航 车宇

摘要

目前,我国已正式进入信息时代,人们的工作和生活方式在大数据技术的影响下有了较大改变。本文首先围绕数据活化理论展开分析,然后研究了矢量数据多态存储模型,最后提出了相关的关键技术,旨在加快大数据检索与处理效率和质量。

【关键词】矢量大数据 高性能计算模型 大数据检索

所谓大数据,具体是指在有限时间里,处理数据集合时使用新兴形式代替一般软件,这样能得到更有观察捕捉力、决定能力以及改善流程能力的大量多元化信息资产。大数据其具备多样、海量、真实、低价值密度以及快速这五个特征,但通过有效的大数据高性能计算模型能够极大地发挥数据的价值。

1 数据活化理论

数据活化可为数据增添生命活力,是指一种新兴的数据监管和运用形式,主要是为完成海量数据集高灵活度的繁杂索引剖析。其基础数据构成单元以数据储存能力和运算能力为主,呈现物理层内不同数据间的互相关联和互相影响,面对运算环境时可主动进化,从而提升大数据运算速率。

活化,具体表现为赋予细胞生命的智能行为:

(1)自发认知所在环境,例如查找剖析任务、资源现状与其余活化细胞等数据信息;

(2)在信息认知基础上推测与体会运算环境形势与运算要求;

(3)沟通促进各个细胞间的信息传递;

(4)根据运算环境的改变更新信息;基于这些智能行为,完成数据有效储存,按需运算。

数据活化理论以细胞为概念,以类似细胞的高性能计算模型对数据进行感知与处理,在大数据环境下的高性能計算重要模型。

2 矢量数据多态储存模型分析

为处理异构、多元的矢量数据,对象模型与矢量数据感知模型站在不同角度对其进行论述,也就是多种形态与状态问题。但就数据储存而言,Geo tuple(矢量地理元组)依然成多态状态,在上层通常展现在软件方面的多态储存方式,在下层展现在硬件方面的多态储存载体。

在储存方式上,空间数据集由代表空间或时间的、基础属性的、初始数据实例的矢量地理元组构成,所以相应储存方式也有所差别。比如:基础属性数据的矢量地理元组用NoSQL数据库表示,分布式文件系统则是初始信息的代表。

矢量地理元组主要有提下特征:首先,拥有数据储存能力,矢量数据目标模型界定为延伸Key-Value,以此储存矢量数据。其次,内存储存。数据被活化之后,有针对性的将其放在不通过物理节点内。最后,拥有运算能力,在高性能运算环境中,完成地理元组的各种转变,和活化细胞的汲取、硝化、沟通、演变等行为相似。

3 矢量大数据高性能计算模型关键技术探究

3.1 关于分布式内存运算的并行二路空间街接算法

这是计算模型中利用率极高的一种算法,由艾伯哈特和肯尼迪等人提出。其优势主要体现在衔接速率快、自组织能力强等。然而由于此种算法是一种以随机方式算出通过迭代的形式来确定目标的形式。虽然其在挑选参数、收敛效率等方面占据较大优势,但却非常易于被局部的查找最优解所限制,导致其全方位检索水平较低。所以,此算法被划分成预休眠、休眠、活跃三种状态,通过这三种状态间的互相转变,能良好的落实调度对策,最大化的搜索检测范围,以此增加基于矢量大数据高性能计算模型的生命周期。这一算法能高效确保数据在检索模块完成信息搜索,进而为提高模型的稳定性,杜绝死角或是搜索信息冗余等不良状况出现在计算模型中。

从此算法的实质来讲,其是对数据检索与处置模式展开同步的检索与处置形式,检索经过模式检索后得到的信息必须要等同于检索前的初始模式。纵然能有效减少信息检索冗余问题,而且可以避免不必要的检索目标能量损耗,从而提升其使用率。但此算法把每一差别化的数据,都视为相应维度检索范畴中的一个数据,同时在此范畴中通过相应速度完成检索,这便导致在解决一些优化问题过程中,发生过早收敛状况。因此,此算法在诸多方面依然有待改善。

3.2 关于分布式内存运算的并行多路空间衔接算法

此算法利用并行多路的空间衔接形式,所以在大量大数据环境中,较上一算法更具优势。但就能量损耗方面而言,此算法表现却更加严重,怎样减少能量损耗,进而将矢量大数据高性能运算模型的生命周期大大增加,成为现阶段急需处理的首要问题。通常来讲,这一算法鉴于全部数据信息范畴中有几率发生能量损耗的平均性,根据数据所在位置实施的一种拓扑控制形式,进而按照数据对象的认知半径,把目标范畴区分成若干个相同大小的网格,并开启数据检索模块让其迅速进入休眠状态,确保所有网格内簇头信息具有灵活性和活跃性。

处于检索环境时,此算法会采用一个数据顶替某一数据完成顶替的形式,进而获得所需数据位置,包括剩下的数据位置,以此完成邻近网格中的数据信息,或是全部网格中的数据信息数据检索与处置的形式。在此状况下,网格中的任何数据同时一种等价状态,在明确等价数据后,可提升单簇搜索范围与单跳的搜索范围,从不同角度来看,高效杜绝了某些簇头信息因为频频参加到信息的顶替流程中而损耗能量状况的发生。毫不夸张的说,这是现阶段此算法解决大量损耗能量问题,增加模型寿命的最佳途径。

3.3 并行多路空间街接算法改进型

虽然分布式内存运算的并行多路空间衔接算法理论上能够解决矢量大数据的分析问题,但结果往往由于数据量的增大,数据的可用性大打折扣。因而改进并行多路空间衔接算法的分析结果,引入搜索引擎的关键字相关排序技术,从而提高其结果的可用性。

4 结论

综上所述,矢量大数据环境下,对高性能运算模型和其主要技术展开分析和探究,能改善大量数据搜集、处置、传递以及储存的形式及办法,在检索与处置环节能高效的确保数据的有效性和时效性,减少数据缺失或者溢出等问题。所以,相关人员必须要充分了解各种算法,在实践中有针对性的选用关键技术,以此确保所需数据的质量。

参考文献

[1]李国杰,程学旗.大数据研究:未来科技及经济社会发展的重大战略领域一大数据的研究现状与科学思考机[J].中国科学院院刊,2015,27(06):647-657.

[2]李建中,李英妹.大数据计算的复杂性理论与算法研究进展[J].中国科学:信息科学,2016,46(09):1255-1275.

[3]施巍松,孙辉,曹杰.边缘计算:万物互联时代新型计算模型[J].计算机研究与发展,2017,54(05):907-924.

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!