时间:2024-05-31
岳阳 徐昆 康利刚
摘要:针对大数据高并发应用的特点,设计了基于云技术的分布式大数据存储系统结构。该存储系统结构采用带外模式的大规模开放集群存储架构,通过高速网络将通用存储服务器中的CPU、内存、网络带宽、磁盘转速、总线性能进行整合,形成统一的存储系统,使得存储总体性能高于计算处理能力与网络带宽的传输速度,以此来屏蔽由于磁盘和总线性能提升缓慢造成的存储性能瓶颈。
关键词:大数据;数据管理;数据存储;云技术
中图分类号:TP393 文献标识码:A 文章编号:1007-9416(2020)09-0115-03
0 引言
大数据是一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合[1]。大数据提出者维克托指出,大数据是指[2]不用随机分析法(抽样调查)捷径,而采用所有数据进行分析处理。大数据具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。
大数据存储是将这些数据集存储在计算机中。大数据平台系统主要为了支撑大数据存储、分析、实时处理等使用场景,整体采用分布式系统的架构,该存储架构通过云平台、虚拟化、负载均衡等技术,将网络上不同终端站点的数据资源形成逻辑上的共享资源,能够根据用户需求提供相应的存储数据。
大数据存储系统作为数据统一处理和服务的平台,是位于各业务信息系统之下的一种支撑性数据访问平台。其定位是为大数据的采集、整合、存储、查询、分析构建统一的数据管理与服务,为上层应用提供数据运算、数据服务以及数据管理的能力。大数据存储系统的核心意义[3]在于使数据存储管理更为集中化,透明化,最终实现数据存储服务平台化,并且可以让数据以资源和服务的方式对外提供。
1 大数据存储系统功能需求
大数据存储系统功能需求[4]如下:
(1)海量异构数据存储。大数据存储系统应具有通用化、平台化、服务化的特点,能够提供足够的存储空间和可靠的数据存储能力,确保任何情况下数据可按需存取。存储系统能够将所有服务器的处理器资源进行整合,进行并发数据处理,以提升存储系统效率,提升存储系统整体的处理能力。
(2)高性能存储。存储系统应具有大容量、易扩展和快速高效的特点,以适应数据快速膨胀、变化的特点,满足应用程序对存储性能增长的要求。
大数据存储系统设计目标:面向海量多源异构数据存储管理需求,提供安全强化的异构对象存储管理能力,能够为多态对象数据提供统一的存储管理,并提供高安全保障能力,为各类应用的状态数据存储、历史数据管理提供支撑,具有非结构化文本数据的高效内容检索能力,能够为各类应用文档数据提供精准的内容检索。
2 大数据存储系统功能设计
面向大数据的存储系统功能主要从存储可靠性、存储维护性和存储扩展性三方面加强设计[5]。
(1)存储可靠性设计。大数据平台存储的数据集中、数据量大、数据价值高,因此大数据环境下的数据安全显得尤为重要,存储系统可靠性是系统整体可靠性的关键,设计的重点在于存储功能的划分及系统自动备份恢复、故障检测判断等。设计目标为不论系统发生任何故障,保证系统数据不丢失,同时保证数据使用的连续性和不间断性,对上层应用不造成影响。
(2)存储维护性设计。存储系统内的服务器、硬盘等硬件设施采用通用化设计,便于用户维护使用。系统平时自动监测各设备及硬件的运行情况,出现故障时能够自动探测定位,并按照负载均衡策略自动进行数据备份或迁移操作,将出现故障的设备进行数据存儲隔离。
(3)存储扩展性设计。新一代业务应用需要存储系统能够根据增加的数据量实时按需扩容,系统内的服务器及硬盘数量等存储硬件无上限要求。此外,存储系统需要具有分级存储功能,可以设置数据存储所使用的硬件设备,经常被访问的数据放置在性能高的存储硬件介质中,以此提升存储系统整体性能,同时实现硬件设备按需分享。对硬件设备进行更新换代时,可在系统中按需添加最新的存储硬件以满足应用需求,提升存储系统整体的灵活性。
3 大数据存储系统结构设计
大数据主要有三种存储架构[6],分别是基于嵌入式的存储架构、基于X86的存储架构以及基于云技术的存储架构。基于云技术的存储架构是目前使用比较广泛的数据存储结构,该结构在大数据的存储可靠性、存储扩展性、存储维护性等方面有许多技术优势。
基于云技术设计的分布式大数据存储系统结构主要由五部分组成,分别是:硬件层、存储层、管理层、协议层、接口层,系统结构如图1所示。
硬件层:主要由存储硬件及网络设备组成,存储节点采用标准X86架构平台,通过软件可将异构存储设备、Flash存储、存储盘阵、分布式存储和磁带库统一管理,不同的存储设备池化管理。
存储层:存储管理层采用分布式文件系统,分别部署在集群存储的各个节点上,各节点上的软件相互通信并协同工作,将集群中全部存储节点的硬盘空间通过存储池虚拟化技术融合成统一命名空间。利用数据生命周期管理技术,根据文件元数据属性(名称、创建时间、修改时间、大小、路径等)的不同,将文件的数据放置在统一存储空间的不同的存储池中,从而映射到不同的存储硬件设备上。利用Flash设备进行存储加速,可将对IO敏感的应用部署在Flash存储设备上,根据Flash存储池的空间使用情况自动迁移至普通磁盘或带库。
管理层:系统管理层实现集群管理功能和企业高级功能。实现集群化安装部署和在线升级。同时具有集群网络附属存储(Network Attached Storage,NAS)功能,可定义集群中的部分节点作为NAS网关节点,节点故障后,NAS服务IP会自动漂移至其它节点。同时具有企业级应用场景中需要的数据压缩、权限、配额、灾备站点数据同步等功能。
协议层:协议层是指与前端应用软件之间进行数据通信的规程,可支持多种数据传输协议,以满足用户不同应用场景的需求。如可以通过POSIX、CIFS、NFS、FTP、HTTP等传输协议支持文件数据传输。
接口层:接口层是可提供的对外接口,管理员可对整个存储系统进行监控和管理。
该存储系统结构采用了云技术的特点和优势,在系统的体系架构、数据的存储结构、数据的备份与恢复、数据的获取与使用、负载匀衡等方面进行了更合理及更方便用户使用的优化设计,底层数据传输采用流媒体结构,能够大幅提高数据的存储性能。
组网架构采用存储节点进行组网,这种组网方式为对称式组网架构,统一存储节点部署NCSFS元数据管理服务、集群监控服务、数据存储服务等功能模块,存储节点部署集群监控服务及数据存储服务等功能模块,实际组网时,支持采用部分统一存储节点+存储节点的组网方式,也可以全部采用统一存储节点进行组网。采用这种对称式组网架构可以满足大部分用户业务需求,是目前主要应用的组网架构。
4 结语
针对大数据高并发应用的特点,设计了基于云技术的分布式大数据存储系统结构。该存储系统结构采用带外模式的大规模开放集群存储架构,通过高速网络将通用存储服务器中的CPU、内存、网络带宽、磁盘转速、总线性能进行整合,形成统一的存储系统,使得存储总体性能高于计算处理能力与网络带宽的传输速度,以此来屏蔽由于磁盘和总线性能提升缓慢造成的存储性能瓶颈。
前端的应用服务器和后端的存储节点及元数据节点通过千兆或万兆以太网络互连,可以保证存储设备的性能输出达到最大化。带外模式可以很好的消除元数据通路与数据通路的相互干扰。元数据服务器的集群化和存儲服务器的集群化,使得整个系统中不存在像NAS系统那样的性能瓶颈点,因此能够完全满足高并发应用的需求。
参考文献
[1] 孙莉娜.基于云计算的大数据存储安全探讨[J].网络安全技术与应用,2018(2):77-78.
[2] 维克托.迈尔-舍恩伯格,肯尼斯.库克耶.大数据时代[M].浙江人民出版社,2013:158-189.
[3] 王瑞通,李炜春.大数据基础存储系统技术研究[J].计算机技术与发展,2017,27(8):66-72.
[4] 陆云帆,诸振家.数据库大数据量存储结构的研究分析[J].电子技术与软件工程,2014(11):200.
[5] 刘圆,王峰,杨明川.面向大数据的分布式存储技术研究[J].电信技术,2015(6):35-38.
[6] 刘亮.基于虚拟化与分布式技术的云存储研究[J].电脑知识与技术,2012(11):211-212.
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!