当前位置:首页 期刊杂志

探索基于NoSQL 数据库的空间大数据分布式存储策略

时间:2024-05-04

王艳喜 潍坊学院计算机工程学院

引言

近几年,随着经济水平以及科技水平的不断提升,云技术、互联网技术以及物联网技术应用进一步广泛,各类数据信息数量逐渐增大,这为空间数据存储以及分析带来了巨大挑战,传统关系型的数据存储净模式已经无法在日常工作中发挥更大的作用。因此,对基于NoSQL数据库的空间大数据分布式存储策略研究有着鲜明现实意义。

1 空间数据存储技术现状

就目前我国空间存储技术发展情况而言,成熟关系型数据库是空间数据存储的主流模式,除此之外,集中存储以及管理空间也是常见模式之一。

1.1 集中存储模式及其局限性

立足于空间数据与应用程序之间的关系而言,可以将空间引擎体系总结为以下几种模式:内置、三层结构以及两层机构。以上结构应用具有不同效果,但总得来说可以很好的存储以及处理海量空间数据。

就目前地理信息空间数据发展情况而言,数据量大、种类多已经成为基本特点,传统空间数据存储处理系统的单一性、集中性存储方法已经无法满足数据处理需求。具体而言,空间数据的大数据转变,存储技术也会发展改变:①存储对象的变化。传统存储处理系统,需要面对各类视频以及音频文件,但是系统并不擅长对上述信息进行处理。②存储能力扩展。从存容量角度而言,传统数据库无法实现对海量数据的精准维护,并且其本身也不具备良好的扩展性以及横向延展性。

1.2 基于NoSQL 的空间数据单一存储模式不足

NoSQL 数据库在近几年的发展过程中已经得到了较为广泛的应用,并且应用效果良好,但是仍然具有一定局限性。例如:在空间数据库中对数据的修改是常用操作,但NoSQI 二数据库一般不建议对数据进行修改,不慎重的修改操作甚至会因为引起相关存储数据的大量迁移而导致性能急剧下降。并且,从实际应用角度而言,NoSQI 二数据库提供的查询能力非常有限,即使是内部衍生出来的MongoDB 也不能满足GIS 常用查询的需要。

2 空间大数据分布式存储策略

结合传统空间数据处理情况,本文提出了一个基于NoSQL 数据库的空间大数据分布式存储策略,该策略在设计以及应用过程中主要是针对传统矢量以及栅格等各类移动终端大数据进行存储与处理。具体的存储体系分为内存数据库、关系数据库以及NoSQL 数据库三个层级。

2.1 存储与管理系统

空间大数据分布式存储系统具有良好的数据存储以及分析能力,可以为使用者提供多种应用功能。从整体角度而言,可以将内部存储系统以及管理系统概括为以下内容:存储系统:内存数据库、传统关系式数据库以及分布式数据库。管理系统:节点管理、数据调度、容错机制、监控系统以及全局日志管理。

具体应用流程可以总计为以下内容:首先,手机、平板、车载设备移动终端产生信息,这些信息接入到网关;然后传输到存储管理系统;最后在传统应用的帮助下进行分析数据显示,例如在线数据更新、空间数据显示、专题地图分析以及位置历史分析结果等。

本文主要是对空间大数据存储系统进行分析,所以针对三种类型数据库进行简要研究:①内存数据库。该类型数据库具有较高的应用价值,因为其本身的数据操作速度较快。I/O处理速度大约是传统数据库的十倍左右。②传统关系式数据库。该数据库存在的意义在于为整个系统提供数据集中存储条件以及对外数据显示功能,促使改进之后的系统仍然具备GIS功效,防止系统部分功能发生退化。③分布式存储系统。该类系统的基础是NoSQL 数据库,在实际应用过程中,可以将其看做为是整个存储系统的数据大仓。其存在的主要作用为:为空间大数据存储提供必要能力,例如可扩展性能力、高通量能力等。

2.2 关键技术

2.2.1 存储实现

对于存储系统而言,最为基本的功能便是可以完成数据存储、实现数据存储,这也是存储系统设计与构建的基本需求。基于此,本文结合NoSQL 数据库基本特点以及MongogDB 数据存储基本特点,构建了一个融合状态下的数据存储模式,以求实现数据库大数据存储功能。就MongogDB 而言,可以说是建立于NoSQL 数据库基础之上的一种数据库,与各类数据对象之间存在有映射关系,这也是应用MongogDB 可以实现数据存储的基本原因。例如:空间位置信息存储中,SQLite:Mem 对应的是的Text、PostgreSQL 对应的是bin、MongogDB 对应的是BSON。

2.2.2 组织结构设计

整个存储系统中,组织结构设计十分重要,关系着系统应用效果以及质量,为保证存储系统稳定,本文建议采用MongogDB 中的Replica Set 以及Sharding 两个集群进行构建。通过实际试验发现,应用场景对于系统存储数据质量有着重要影响,基于此,本文根据地理范围基本限定,进行了外部分片,之后进行Sharding 集群的搭建,这样可以进一步降低外界环境因素的影响,而Sharding 集群此时可以称之为滞后集群。

2.2.3 数据快速提取技术

从实际应用角度而言,数据快速提取往往会受到多种因素的影响,例如数据基本组织结构以及空间索引策略等,所谓的空间索引策略其实就是数据提取应用到的具体方法,不同提取方法最终作用效果效果并不相同,所以提取效果也存在差异性,从此角度而言,空间索引策略可以说是影响数据提取速度的根本因素。结合实际应用需求以及测试情况,建议采用元数据多级图幅索引方式进行设计,因为此种索引方式可以很好的与集群方案相互配合。

2.2.4 数据调度

因为最终构建的空间大数据存在高效分析以及快速处理需求,所以为保证处理与存储时间,需要做好数据调度,只有数据调度合理,数据提取以及分析才能更加快速。基于此,本文建议将传统存储模式设计为“内外存协同”形式。这样就可以将经常应用到的热点数据存储到数据库中,进一步保证数据库的高通量,不经常应用的冷数据可以采用归档形式存储到NoSQL 数据库或者是传统数据库当中。

2.2.5 访问接口设计

访问接口设计十分重要,因为关系着数据的输入以及传输,如果访问接口设计质量存在问题,则数据流通将会产生影响,致使整个存储、处理系统无法正常发挥作用。该方面的设计主要集中在传统关系式数据库当中。本文建议,为传统数据库提供一个API 端口,改端口中存在一个开源的OGDC。此端口有一个空间数据端口的OD—BC,可以在实际应用过程中为空间数据提供最为基础的访问功能,其中不仅包含了Oracle、DB2,而且包含了DM 以及Kingbase 等。除此之外,此种访问接口设计还为数据并行提供了必要渠道。

3 结论

综上所述,随着数据数量的逐渐增加,空间数据存储暴露出很多问题,而空间大数据存储策略的研究便是从各类问题角度入手,以求可以更好的解决大数据存储、应用以及处理等问题。本文提出了以NoSQL 数据库为基础,应用分布式存储方法,对原有系统进行改进,就实际应用情况而言,上述改进方法可行且效果良好。

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!